Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".


Базовые понятия DjVu-книгосканирования

В этой небольшой статье собран список общих понятий и терминов, которые необходимо знать каждому, кто сканирует бумажные книги в формат DjVu. Здесь вынужденно даётся лишь краткое описание - подробнее ищите в Интернете, а также в русско- и англоязычной Википедии.

Если Вы сканируете книги для DjVu - проверьте себя - знаете ли Вы эти понятия.


Основные постулаты

(Советы опытных книгосканировщиков)

Наиболее важные:

1. Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг. Она корёжит получаемые скан-изображения страниц книги. Можно использовать программу ABBYY FineReader 9 для этого - но перед сканированием сбросьте там в опциях галку "Исправить перекос изображения".

2. Не сканируйте книги в чёрно-белом режиме (Black-White или Line Art или 1-bit), а ТОЛЬКО в режиме серого (Greyscale, или 8-bit) или цветного (Color, или 32-bit) - если книга содержит цветные рисунки. Сканирование в чёрно-белом режиме приводит в итоге к необратимому ухудшению качества получаемой DjVu-эл.книги. Данный режим сканирования задаётся в интерфейсе сканера - т.е. в том окне, которое появляется после нажатия в программе кнопки "Сканировать".

3. Не сканируйте в формат JPG. Формат JPG "размывает" скан-изображения страниц книги.

4. Не используйте опцию "Заменять неуверенно-распознанные символы их изображениями" - когда создаёте Pdf-эл.книгу в ABBYY FineReader - такие эл. книги выглядят ужасно.

Прочее:

5. Сканируйте книги в формат TIF и с разрешением не менее 300 DPI. Для наиболее высокого качества сканируйте с разрешением 600 DPI.

6. Не пожалейте 2-3 вечера и освойте использование таких программ, как ScanKromsator 5.93 и BookRestorer 4.2.1. Эти программы позволяют радикально облагородить "сырые" сканы (т.е. получаемые непосредственно от сканера) перед закодированием их в формат DjVu.

7. Не используйте формат Pdf для создания электронной версии бумажной книги. Взамен используйте формат DjVu (кроме случаев полной ручной свёрстки текстовой Pdf-эл.книги). Электронные книги в формате DjVu занимают меньший размер (по сравнению с Pdf), не "тормозят" в просмотрщике (в отличие от Pdf), и имеют более чёткий текст, чем Pdf.

8. Для просмотра файлов в формате DjVu под Windows используйте программу WinDjView - все прочие варианты значительно хуже.

9. Сохраняйте полученные "сырые" сканы книг на болванку (CD-R или DVD+R) - чтобы обезопасить себя от их случайной утраты.


Что такое "качественная" DjVu-книга? Каков именно максимальный уровень качества, который можно достичь при создании DjVu-книги? Чтобы ответить для себя на эти вопросы, посмотрите для образца:

Пример качественной DjVu-книги (554 КБ)  (Для просмотра необходима программа WinDjView).


Концептуальная схема DjVu-книгосканирования

1. Сканирование бумажной книги. В результате получаются т.н. "сырые сканы"- серые или цветные необработанные изображения страниц книги. Смысл - получение "сырья" для будущей электронной книги. Рекомендуемая программа - Irfan View.

2. Обработка сырых сканов. Это "облагораживание" сырых сканов (другое название - "кромсание"). Смысл - задать хорошее качество будующей электронной книги. Иначе (если довольствоваться "сырыми сканами") такой электронной книгой будет практически невозможно воспользоваться. Рекомендуемая программа - ScanKromsator, BookRestorer.

3. Кодирование обработанных сканов в формат DjVu (можно в Pdf, но это хуже). Смысл - радикально уменьшить размер "облагороженных" сканов без серьёзной потери качества. В результате электронными книгами столь малого размера становится возможным обмениваться через Интернет. Есть и другие плюсы. Рекомендуемая программа - DjVu Small, Document Express Enterprise 5.1 (DEE 5.1).

4. Добавление текстового OCR-слоя (не обязательно). Смысл - дать читателям возможность копирования цитат, а также поиска по ключевым словам. Обе эти возможности довольно нужны и важны. Рекомендуемая программа - ABBYY FineReader 8.0, DjvuOCR 2 и выше.

Примечание: Перечисленные программы можно скачать в разделе Итоги по DjVu-программам.


Основные термины

Двоичное исчисление - Способ записи любого числа при помощи единиц и нулей. Производные понятия - "восьмеричное исчисление", "шестнадцатеричное исчисление". См. Описание.

Растровое изображение - Неформализованная картинка, хранимая в виде массива пикселей.

Векторное изображение - Формализованная картинка, хранимая в виде команд на построение изображения. См. Описание

Пиксель - Элементарный элемент растрового изображения. Имеет монотонный цвет по всей своей площади.

Глубина цвета - Битовая разрядность растрового изображения. Количество бит, выделяемое для описания одного пикселя изображения, например: 1 - для чёрно-белого (или B/W), 8 - для серого (или Grey), 24 - для цветного (или Color).

Чтобы выяснить глубину цвета данного файла, нужно щёлкнуть правой кнопкой мыши на пиктограмме файла, и выбрать (в WinXP): Свойства -> Вкладка "Сводка" -> Кнопка "Дополнительно":

BW (или B/W) - Чёрно-белое изображение, т.е. "Black and White". Каждый пиксель описан 1 битом, поэтому изображение содержит лишь 2 цвета - чёрный и белый. Часто называется также "битмап" (bitmap) или "чёрно-белые сканы", или "bw", а также "Line Art" - штриховая графика.

Greyscale (или Grayscale) - Серое изображение. Каждый пиксель описан 1 байтом (т.е. 8 бит), поэтому изображение содержит 256 оттенков серого цвета. Часто называется также "изображение в градациях серого", или "полутоновое изображение", или просто "серые сканы".

Color - Цветное изображение. Каждый пиксель описан 4 байтами (т.е. 32 бита) и формируется из смеси красного, синего, зелёного цветов (по 1 байту на каждый такой канал цвета) плюс 1 байт идёт на описание прозрачности, поэтому изображение содержит 16,7 млн. цветных оттенков.

Бинаризация - Процедура преобразования из Greyscale или Color в BW. Может быть (в зависимости от алгоритма) пороговой, адаптивной, энтропийной, и т.д.

Порог бинаризации - Номер серого цвета, всё светлее которого становится белым, а всё темнее - чёрным (при бинаризации).

Разрешение - Условная величина. Количество пикселей на единицу условной метрической длины растрового изображения. Измеряется в DPI (dots per inch) - "точек на дюйм". Значение DPI, длина и ширина изображения в пикселях хранятся в заголовке растрового файла - и, исходя из этих параметров, графические программы вычисляют условные метрические длину и ширину растрового файла (в дюймах или сантиметрах).

Ресемплинг - (англ. "Resampling" - "Перевыборка" ). Процедура "переразбиения" на пиксели растрового изображения - ради увеличения/уменьшения количества пикселей изображения. При этом всегда изменяется разрешение (DPI) и всегда меняется размер файла растрового изображения. Не путать с "ресайзингом" - изменением условных метрических размеров изображения с пропорциональным изменением его разрешения - при этом размера файла изображения НЕ МЕНЯЕТСЯ. См. Описание.

Повышающий ресемплинг (или Апсемплинг - от англ. "Upsampling"). Частный случай ресемплинга. Процедура увеличения количества пикселей в изображении за счёт интерполяции цветов соседних пикселей. Не добавляет реальную информацию в изображение.

Понижающий ресемплинг (или Даунсемплинг - от англ. "Downsampling"). Частный случай ресемплинга. Процедура уменьшения количества пикселей в изображении. Необратимо уменьшает реальную информацию в изображении. Также называется ещё "Субдискретизация".

Яркость - Субъективный показатель "осветлённости" изображения. Влияет на все пиксели изображения. Большая или меньшая яркость задаётся просто оптовым увеличением/уменьшением номеров цветов всех пикселей изображения.

Контрастность - Степень "различности" самых светлых и самых тёмных пикселей изображения. При увеличении контрастности пикселы, имеющие яркость выше некоторого значения, приобретают еще большую яркость, а пикселы, имеющие яркость ниже некоторого значения, становятся еще темнее.

Гамма - Параметр, влияющий на среднеяркие пиксели ("антипод" контрастности). При изменении гаммы самые светлые и самые тёмные пиксели изображения не меняются.

Гистограмма - Линейно-столбчатый график, отображающий процентное распределение яркости по всем пикселям изображения. Служит наглядным измерительным инструментом, характеризующим изображение. См. Описание.

Муар - Нежелательный узор, возникающий при наложении двух периодических сетчатых рисунков. См. Описание.

Dithering (Дизеринг, или "Растрирование", а также "Клиширование") - Автоматическая процедура, преобразующая Greyscale-изображение в чёрно-белое особым способом - исходное изображение рисуется мелкими чёрно-белыми точками одинакового размера, но через точно алгоритмически рассчитанное расстояние друг от друга. В результате достигается оптическая иллюзия исходного Greyscale-изображения, хотя рисунок уже на самом деле чёрно-белый. Dithering применяется для бинаризации Greyscale-рисунков на сканах книг, т.к. обычная бинаризация нередко портит такие рисунки. См. Описание.

Deskew - (От англ. "skew" - наклон, склон, скос, уклон). "Дескью" (также "Ортогонизация"), или автоматическая процедура устранения углового перекоса страницы.

Когда мы сканируем лист бумаги с текстом, то, как правило, кладём этот лист на стекло сканера не строго параллельно сторонам сканера - а под небольшим углом. Поэтому на полученном скане строки текста выглядят не горизонтально. Алгоритм Deskew автоматически вычисляет угол перекоса и поворачивает скан целиком на этот найденный угол так, чтобы строки текста стали горизонтальными.

Скан до Deskew

Скан после Deskew

Despeckle - (От англ. "speckle" - крапинка, пятнышко). "Деспекл", или автоматическая процедура удаления мелких "соринок" на скане. По своей природе работает только на чёрно-белых сканах - на Greyscale и Color сканы не оказывает должного эффекта.

При сканировании текста на полученном скане часто оказываются многочисленные мелкие и мельчайшие тёмные "крапинки" (спеклы) - из-за высокой чувствительности сканирующей головки сканера. Алгоритм Despeckle автоматически удаляет такой "мусор" со скана.

Скан до Despeckle

Скан после Despeckle

DPI - См. пункт "Разрешение".

TWAIN-интерфейс - Стандартизованный программный язык, при помощи которого сканирующая программа "общается" со сканером. Необходим для того, чтобы любая сканирующая программа могла "понимать" любой сканер. Большинство современных сканеров поддерживают TWAIN-интерфейс.

Anti-aliasing - Процедура сглаживания "зубцов" кривых линий на растровых изображениях. См. Описание.

OCR - Optical Character Recognition - технология автоматического распознавания текста на его сканированном изображении. Это основная цель такой программы, как, например, ABBYY FineReader.


Форматы растровой графики

Основной рабочий графический формат при DjVu-сканировании - это формат TIF. Он включает в себя несколько "подформатов" или режимов - без сжатия, со сжатием, и т.д. Обратите внимание на 2 популярных режима (со сжатием данных) TIF-файла:

Режим LZW - применяется в серых и цветных TIF-файлах.

Режим CCIT FAX G4 - применяется в чёрно-белых TIF-файлах.

Важная деталь: оба этих режима дают сжатие БЕЗ ПОТЕРЬ (каждый для своего класса глубины цвета).

Эти 2 режима наиболее широко применяются в сканобработке (т.к. они дают наименьший "естественный" размер файлов).

Сжатие LZW обычно никогда не применяется для 1-битных TIF-файлов - поскольку сжатие CCIT FAX G4 примерно в 2 раза эффективнее, чем LZW для чёрно-белого.

Возьмите любой TIF-файл и попробуйте сохранить его в режимах TIF (LZW) или TIF (CCIT FAX G4) в каком-нибудь графической программе - например, Irfan View или ACDSee. Посмотрите, насколько при этом уменьшился размер файла. Обратите внимание, что при сохранении серого или цветного изображения в режиме CCIT FAX G4 оно автоматически становится чёрно-белым.

Кроме того, ознакомьтесь с наиболее популярными форматами растровой графики.


Термины, используемые при работе с программой СканКромсатор

Сдвоенный разворот

Одиночный разворот

Сдвоенный разворот - Скан, на котором видны изображения 2-х соседних страниц бумажной книги. Такие сканы получаются в случае малоформатных бумажных книг - когда весь разворот целиком помещается на стекле A4-сканера.

Левая страница - Изображение левой страницы книги на сдвоенном развороте.

Правая страница - Изображение правой страницы книги на сдвоенном развороте.

Одиночный разворот - Скан, на котором видно изображение только одной страницы бумажной книги. Такие сканы получаются в случае крупноформатных бумажных книг - когда на стекле A4-сканера помещается только одна страница книги (а не разворот).

Ошмёток - Бесполезная часть соседней страницы (на одиночном развороте) в виде вертикальной полосы.

ОВ-символ - Малоразмерные смысловые элементы текста, далеко отстоящие от основной массы текста на скане. Например, номера страниц, элементы оглавления, значки параграфов, подписи к рисункам. Алгоритму, распознающему на скане положение контура текста, трудно опознать эти элементы как смысловые - для этого потребовалось бы проводить полноценный OCR текста на скане.


Понятия, используемые при работе с форматом DjVu

1. Тип DjVu-файла

Чтобы узнать, какой перед нами тип DjVu-файла, откройте его в WinDjView, и щёлкните правой кнопкой мыши на его изображении. В появившемся контекстном меню появится пункт "Информация о странице". Если выбрать этот пункт, то мы увидим примерно такое окно:

Серый или цветной DjVu-файл

Чёрно-белый DjVu-файл

Если в этом окне присутствуют многочисленные записи, содержащие слово "IW44" - значит, перед нами либо серый, либо цветной DjVu-файл. Если же в этом окне относительно мало записей, и нет упоминания о "IW44" - значит, это чёрно-белый DjVu-файл.

1. Наличие/отсутствие встроенного OCR-текста

Для того, чтобы узнать, содержит ли данный DjVu-файл встроенный OCR-текст, нажмите на панели управления WinDjView кнопку "Режим выделения" (с рисунком в виде буквы "I" и с маленьким чёрным треугольничком сбоку):

Курсор мыши примет такую форму: "I".

Затем попробуйте выделить курсором мыши произвольный участок текста. Если данный DjVu-файл содержит встроенный OCR-текст, то выделяемый мышью текст подсветится чёрным цветом:

Теперь можете щёлкнуть правой кнопкой мыши по произвольному месту подсвеченного чёрным текста и в появившемся контекстном меню выбрать пункт "Скопировать текст". При этом выделенный текст скопируется в буфер обмена, откуда его можно будет вставить в любой текстовый редактор - MS Word, NotePad, и т.п.

Существуют поисковые программы, которые осуществляют поиск по ключевым словам по группе DjVu-книг. Эти программы анализируют встроенный OCR-текст в каждой DjVu-книге из группы поиска.

3. Наличие/отсутствие букмарков

Букмарки (другие названия: Закладки, Дерево-оглавление, Bookmarks, Outline) - это навигационный механизм по DjVu-книге. Если DjVu-книга содержит букмарки, то тогда в WinDjView появляется дополнительная вкладка "Содержание". При нажатии на эту вкладку открывается окно содержания следующего вида:

Букмарки - это стандартный навигационный механизм, предусмотренный официальными спецификациями формата DjVu. Практически любой современный DjVu-просмотрщик способен отображать букмарки. Исключение составляет программа OpenDjVu - имеющая свой особый формат букмарков, несовместимый со стандартным.


Литература

Глава 2. Коррекция изображений (Из учебника "Иллюстрированный самоучитель по WEB-графике") - очень толковое описание некоторых базовых понятий растровой графики.


Автор: monday2000.

14 ноября 2007 г.

E-Mail  (monday2000 [at] yandex.ru)

Hosted by uCoz