Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".
В этой небольшой статье собран список общих понятий и терминов, которые необходимо знать каждому, кто сканирует бумажные книги в формат DjVu. Здесь вынужденно даётся лишь краткое описание - подробнее ищите в Интернете, а также в русско- и англоязычной Википедии.
(Советы опытных книгосканировщиков)
1. Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг. Она корёжит получаемые скан-изображения страниц книги. Можно использовать программу ABBYY FineReader 9 для этого - но перед сканированием сбросьте там в опциях галку "Исправить перекос изображения".
2. Не сканируйте книги в чёрно-белом режиме (Black-White или Line Art или 1-bit), а ТОЛЬКО в режиме серого (Greyscale, или 8-bit) или цветного (Color, или 32-bit) - если книга содержит цветные рисунки. Сканирование в чёрно-белом режиме приводит в итоге к необратимому ухудшению качества получаемой DjVu-эл.книги. Данный режим сканирования задаётся в интерфейсе сканера - т.е. в том окне, которое появляется после нажатия в программе кнопки "Сканировать".
3. Не сканируйте в формат JPG. Формат JPG "размывает" скан-изображения страниц книги.
4. Не используйте опцию "Заменять неуверенно-распознанные символы их изображениями" - когда создаёте Pdf-эл.книгу в ABBYY FineReader - такие эл. книги выглядят ужасно.
5. Сканируйте книги в формат TIF и с разрешением не менее 300 DPI. Для наиболее высокого качества сканируйте с разрешением 600 DPI.
6. Не пожалейте 2-3 вечера и освойте использование таких программ, как ScanKromsator 5.93 и BookRestorer 4.2.1. Эти программы позволяют радикально облагородить "сырые" сканы (т.е. получаемые непосредственно от сканера) перед закодированием их в формат DjVu.
7. Не используйте формат Pdf для создания электронной версии бумажной книги. Взамен используйте формат DjVu (кроме случаев полной ручной свёрстки текстовой Pdf-эл.книги). Электронные книги в формате DjVu занимают меньший размер (по сравнению с Pdf), не "тормозят" в просмотрщике (в отличие от Pdf), и имеют более чёткий текст, чем Pdf.
8. Для просмотра файлов в формате DjVu под Windows используйте программу WinDjView - все прочие варианты значительно хуже.
9. Сохраняйте полученные "сырые" сканы книг на болванку (CD-R или DVD+R) - чтобы обезопасить себя от их случайной утраты.
Что такое "качественная" DjVu-книга? Каков именно максимальный уровень качества, который можно достичь при создании DjVu-книги? Чтобы ответить для себя на эти вопросы, посмотрите для образца:
Пример качественной DjVu-книги (554 КБ) (Для просмотра необходима программа WinDjView).
1. Сканирование бумажной книги. В результате получаются т.н. "сырые сканы"- серые или цветные необработанные изображения страниц книги. Смысл - получение "сырья" для будущей электронной книги. Рекомендуемая программа - Irfan View.
2. Обработка сырых сканов. Это "облагораживание" сырых сканов (другое название - "кромсание"). Смысл - задать хорошее качество будующей электронной книги. Иначе (если довольствоваться "сырыми сканами") такой электронной книгой будет практически невозможно воспользоваться. Рекомендуемая программа - ScanKromsator, BookRestorer.
3. Кодирование обработанных сканов в формат DjVu (можно в Pdf, но это хуже). Смысл - радикально уменьшить размер "облагороженных" сканов без серьёзной потери качества. В результате электронными книгами столь малого размера становится возможным обмениваться через Интернет. Есть и другие плюсы. Рекомендуемая программа - DjVu Small, Document Express Enterprise 5.1 (DEE 5.1).
4. Добавление текстового OCR-слоя (не обязательно). Смысл - дать читателям возможность копирования цитат, а также поиска по ключевым словам. Обе эти возможности довольно нужны и важны. Рекомендуемая программа - ABBYY FineReader 8.0, DjvuOCR 2 и выше.
Примечание: Перечисленные программы можно скачать в разделе Итоги по DjVu-программам.
Двоичное исчисление - Способ записи любого числа при помощи единиц и нулей. Производные понятия - "восьмеричное исчисление", "шестнадцатеричное исчисление". См. Описание.
Растровое изображение - Неформализованная картинка, хранимая в виде массива пикселей.
Векторное изображение - Формализованная картинка, хранимая в виде команд на построение изображения. См. Описание
Пиксель - Элементарный элемент растрового изображения. Имеет монотонный цвет по всей своей площади.
Глубина цвета - Битовая разрядность растрового изображения. Количество бит, выделяемое для описания одного пикселя изображения, например: 1 - для чёрно-белого (или B/W), 8 - для серого (или Grey), 24 - для цветного (или Color).
Чтобы выяснить глубину цвета данного файла, нужно щёлкнуть правой кнопкой мыши на пиктограмме файла, и выбрать (в WinXP): Свойства -> Вкладка "Сводка" -> Кнопка "Дополнительно":
BW (или B/W) - Чёрно-белое изображение, т.е. "Black and White". Каждый пиксель описан 1 битом, поэтому изображение содержит лишь 2 цвета - чёрный и белый. Часто называется также "битмап" (bitmap) или "чёрно-белые сканы", или "bw", а также "Line Art" - штриховая графика.
Greyscale (или Grayscale) - Серое изображение. Каждый пиксель описан 1 байтом (т.е. 8 бит), поэтому изображение содержит 256 оттенков серого цвета. Часто называется также "изображение в градациях серого", или "полутоновое изображение", или просто "серые сканы".
Color - Цветное изображение. Каждый пиксель описан 4 байтами (т.е. 32 бита) и формируется из смеси красного, синего, зелёного цветов (по 1 байту на каждый такой канал цвета) плюс 1 байт идёт на описание прозрачности, поэтому изображение содержит 16,7 млн. цветных оттенков.
Бинаризация - Процедура преобразования из Greyscale или Color в BW. Может быть (в зависимости от алгоритма) пороговой, адаптивной, энтропийной, и т.д.
Порог бинаризации - Номер серого цвета, всё светлее которого становится белым, а всё темнее - чёрным (при бинаризации).
Разрешение - Условная величина. Количество пикселей на единицу условной метрической длины растрового изображения. Измеряется в DPI (dots per inch) - "точек на дюйм". Значение DPI, длина и ширина изображения в пикселях хранятся в заголовке растрового файла - и, исходя из этих параметров, графические программы вычисляют условные метрические длину и ширину растрового файла (в дюймах или сантиметрах).
Ресемплинг - (англ. "Resampling" - "Перевыборка" ). Процедура "переразбиения" на пиксели растрового изображения - ради увеличения/уменьшения количества пикселей изображения. При этом всегда изменяется разрешение (DPI) и всегда меняется размер файла растрового изображения. Не путать с "ресайзингом" - изменением условных метрических размеров изображения с пропорциональным изменением его разрешения - при этом размера файла изображения НЕ МЕНЯЕТСЯ. См. Описание.
Повышающий ресемплинг (или Апсемплинг - от англ. "Upsampling"). Частный случай ресемплинга. Процедура увеличения количества пикселей в изображении за счёт интерполяции цветов соседних пикселей. Не добавляет реальную информацию в изображение.
Понижающий ресемплинг (или Даунсемплинг - от англ. "Downsampling"). Частный случай ресемплинга. Процедура уменьшения количества пикселей в изображении. Необратимо уменьшает реальную информацию в изображении. Также называется ещё "Субдискретизация".
Яркость - Субъективный показатель "осветлённости" изображения. Влияет на все пиксели изображения. Большая или меньшая яркость задаётся просто оптовым увеличением/уменьшением номеров цветов всех пикселей изображения.
Контрастность - Степень "различности" самых светлых и самых тёмных пикселей изображения. При увеличении контрастности пикселы, имеющие яркость выше некоторого значения, приобретают еще большую яркость, а пикселы, имеющие яркость ниже некоторого значения, становятся еще темнее.
Гамма - Параметр, влияющий на среднеяркие пиксели ("антипод" контрастности). При изменении гаммы самые светлые и самые тёмные пиксели изображения не меняются.
Гистограмма - Линейно-столбчатый график, отображающий процентное распределение яркости по всем пикселям изображения. Служит наглядным измерительным инструментом, характеризующим изображение. См. Описание.
Муар - Нежелательный узор, возникающий при наложении двух периодических сетчатых рисунков. См. Описание.
Dithering (Дизеринг, или "Растрирование", а также "Клиширование") - Автоматическая процедура, преобразующая Greyscale-изображение в чёрно-белое особым способом - исходное изображение рисуется мелкими чёрно-белыми точками одинакового размера, но через точно алгоритмически рассчитанное расстояние друг от друга. В результате достигается оптическая иллюзия исходного Greyscale-изображения, хотя рисунок уже на самом деле чёрно-белый. Dithering применяется для бинаризации Greyscale-рисунков на сканах книг, т.к. обычная бинаризация нередко портит такие рисунки. См. Описание.
Deskew - (От англ. "skew" - наклон,
склон, скос, уклон). "Дескью" (также
"Ортогонизация"), или автоматическая
процедура устранения углового перекоса
страницы. Когда мы сканируем лист бумаги с
текстом, то, как правило, кладём этот лист на
стекло сканера не строго параллельно сторонам
сканера - а под небольшим углом. Поэтому на
полученном скане строки текста выглядят не
горизонтально. Алгоритм Deskew автоматически
вычисляет угол перекоса и поворачивает скан
целиком на этот найденный угол так, чтобы строки
текста стали горизонтальными. |
Скан до Deskew |
Скан после Deskew |
Despeckle - (От англ. "speckle" - крапинка, пятнышко). "Деспекл", или автоматическая процедура удаления мелких "соринок" на скане. По своей природе работает только на чёрно-белых сканах - на Greyscale и Color сканы не оказывает должного эффекта.
При сканировании текста на полученном скане часто оказываются многочисленные мелкие и мельчайшие тёмные "крапинки" (спеклы) - из-за высокой чувствительности сканирующей головки сканера. Алгоритм Despeckle автоматически удаляет такой "мусор" со скана.
Скан до Despeckle |
Скан после Despeckle |
DPI - См. пункт "Разрешение".
TWAIN-интерфейс - Стандартизованный программный язык, при помощи которого сканирующая программа "общается" со сканером. Необходим для того, чтобы любая сканирующая программа могла "понимать" любой сканер. Большинство современных сканеров поддерживают TWAIN-интерфейс.
Anti-aliasing - Процедура сглаживания "зубцов" кривых линий на растровых изображениях. См. Описание.
OCR - Optical Character Recognition - технология автоматического распознавания текста на его сканированном изображении. Это основная цель такой программы, как, например, ABBYY FineReader.
Основной рабочий графический формат при DjVu-сканировании - это формат TIF. Он включает в себя несколько "подформатов" или режимов - без сжатия, со сжатием, и т.д. Обратите внимание на 2 популярных режима (со сжатием данных) TIF-файла:
Режим LZW - применяется в серых и цветных TIF-файлах.
Режим CCIT FAX G4 - применяется в чёрно-белых TIF-файлах.
Важная деталь: оба этих режима дают сжатие БЕЗ ПОТЕРЬ (каждый для своего класса глубины цвета).
Эти 2 режима наиболее широко применяются в сканобработке (т.к. они дают наименьший "естественный" размер файлов).
Сжатие LZW обычно никогда не применяется для 1-битных TIF-файлов - поскольку сжатие CCIT FAX G4 примерно в 2 раза эффективнее, чем LZW для чёрно-белого.
Возьмите любой TIF-файл и попробуйте сохранить его в режимах TIF (LZW) или TIF (CCIT FAX G4) в каком-нибудь графической программе - например, Irfan View или ACDSee. Посмотрите, насколько при этом уменьшился размер файла. Обратите внимание, что при сохранении серого или цветного изображения в режиме CCIT FAX G4 оно автоматически становится чёрно-белым.
Кроме того, ознакомьтесь с наиболее популярными форматами растровой графики.
Сдвоенный разворот |
Одиночный разворот |
Сдвоенный разворот - Скан, на котором видны изображения 2-х соседних страниц бумажной книги. Такие сканы получаются в случае малоформатных бумажных книг - когда весь разворот целиком помещается на стекле A4-сканера.
Левая страница - Изображение левой страницы книги на сдвоенном развороте.
Правая страница - Изображение правой страницы книги на сдвоенном развороте.
Одиночный разворот - Скан, на котором видно изображение только одной страницы бумажной книги. Такие сканы получаются в случае крупноформатных бумажных книг - когда на стекле A4-сканера помещается только одна страница книги (а не разворот).
Ошмёток - Бесполезная часть соседней страницы (на одиночном развороте) в виде вертикальной полосы.
ОВ-символ - Малоразмерные смысловые элементы текста, далеко отстоящие от основной массы текста на скане. Например, номера страниц, элементы оглавления, значки параграфов, подписи к рисункам. Алгоритму, распознающему на скане положение контура текста, трудно опознать эти элементы как смысловые - для этого потребовалось бы проводить полноценный OCR текста на скане.
1. Тип DjVu-файла
Чтобы узнать, какой перед нами тип DjVu-файла, откройте его в WinDjView, и щёлкните правой кнопкой мыши на его изображении. В появившемся контекстном меню появится пункт "Информация о странице". Если выбрать этот пункт, то мы увидим примерно такое окно:
Серый или цветной DjVu-файл |
Чёрно-белый DjVu-файл |
Если в этом окне присутствуют многочисленные записи, содержащие слово "IW44" - значит, перед нами либо серый, либо цветной DjVu-файл. Если же в этом окне относительно мало записей, и нет упоминания о "IW44" - значит, это чёрно-белый DjVu-файл.
1. Наличие/отсутствие встроенного OCR-текста
Для того, чтобы узнать, содержит ли данный DjVu-файл встроенный OCR-текст, нажмите на панели управления WinDjView кнопку "Режим выделения" (с рисунком в виде буквы "I" и с маленьким чёрным треугольничком сбоку):
Курсор мыши примет такую форму: "I".
Затем попробуйте выделить курсором мыши произвольный участок текста. Если данный DjVu-файл содержит встроенный OCR-текст, то выделяемый мышью текст подсветится чёрным цветом:
Теперь можете щёлкнуть правой кнопкой мыши по произвольному месту подсвеченного чёрным текста и в появившемся контекстном меню выбрать пункт "Скопировать текст". При этом выделенный текст скопируется в буфер обмена, откуда его можно будет вставить в любой текстовый редактор - MS Word, NotePad, и т.п.
Существуют поисковые программы, которые осуществляют поиск по ключевым словам по группе DjVu-книг. Эти программы анализируют встроенный OCR-текст в каждой DjVu-книге из группы поиска.
3. Наличие/отсутствие букмарков
Букмарки (другие названия: Закладки, Дерево-оглавление, Bookmarks, Outline) - это навигационный механизм по DjVu-книге. Если DjVu-книга содержит букмарки, то тогда в WinDjView появляется дополнительная вкладка "Содержание". При нажатии на эту вкладку открывается окно содержания следующего вида:
Букмарки - это стандартный навигационный механизм, предусмотренный официальными спецификациями формата DjVu. Практически любой современный DjVu-просмотрщик способен отображать букмарки. Исключение составляет программа OpenDjVu - имеющая свой особый формат букмарков, несовместимый со стандартным.
Глава 2. Коррекция изображений (Из учебника "Иллюстрированный самоучитель по WEB-графике") - очень толковое описание некоторых базовых понятий растровой графики.
Автор: monday2000.
14 ноября 2007 г.
E-Mail (monday2000 [at] yandex.ru)