Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".
При сканировании книг иногда не удаётся плотно прижать к стеклу сканера область около корешка книги (для обеспечения правильности сканирования). Так бывает, когда корешок книги сшит слишком жёстко и тесно. Как правило, такое встречается в случае очень толстых книг, но не всегда.
В результате порой получаются неравномерно-освещённые сканы книжных страниц:
На рисунке хорошо видны т.н. "наползающие тени" (на текст) - около корешка книги. Также отчётливо видна пересвеченная (слишком выбеленная) область в виде вертикальной полосы - чуть правее корешка.
Такие серые сканы нельзя обрабатывать напрямую (преобразовывать в чёрно-белые и разрезать на ровные страницы в СканКромсаторе) - неравномерная освещённость не позволит осуществить прямое и качественное преобразование в чёрно-белый режим - появятся чёрные пятна и белые проплешины.
Обработка подобных сканов должна осуществляться следующим образом:
1. Выравнивание освещённости. Это полностью автоматическая процедура, сглаживающая перепады яркости по площади скана.
2. Пороговая бинаризация. Это тоже полностью автоматическая процедура, применяемая к сканам сразу после выравнивания освещённости. Здесь важно правильно подобрать оптимальное значение порога бинаризации - при слишком низком пороге "вылезает мусор", при слишком высоком - "пропадают буквы". Подробнее см. далее.
Бинаризация - это преобразование серых сканов (256 оттенков серого) к чёрно-белым (2 цвета - чёрный и белый), а порог - это тот номер серого цвета, всё светлее которого становится белым, а всё темнее - чёрным.
Эти 2 операции можно осуществить или в СканКромсаторе v5.6A, или в Book Restorer v4.1. Обе эти программы можно скачать в разделе DjVu-программы.
Рассмотрим пошаговый алгоритм обработки неравномерно-освещённых сканов в Букресторере.
1. Запускаем Book Restorer v4.1 Eng. Создаём новую книгу ("книга" - это аналог файнридеровского пакета в Букресторере): меню Book -> New. Назовём её, например, "book". После нажатия OK соглашаемся с созданием новой папки. На жёстком диске при этом создастся новая папка - "C:\book" - это и есть наша новая книга. В левой панели "Book explorer" появится дерево созданной книги.
2. Заполняем книгу сканами, подлежащими обработке: меню Insert -> Automated Import. В появившемся окне Import options в поле Source folder вводим путь к папке со сканами, в поле Type выбираем TIFF (*.tif). После нажатия на OK книга начнёт автоматически наполняться сканами. Как только все сканы загрузятся в книгу, продолжаем дальше.
Важно отметить, что мы загружаем для обработки "сырые" сканы - т.е. прямо от сканера, в виде серых сдвоенных разворотов (или одиночных сканов с ошмётком соседней страницы). Никакой предварительной обработки сканов не требуется.
3. Выделяем все сканы: меню Edit -> Select all.
4. В дереве обработок делаем двойной клик мышью на узел Lighting correction:
5. В появившемся окне Lighting correction переключаемся на Tab-вкладку Lighting correction 2D:
Нажимаем OK - начинается постраничная обработка (выравнивание освещённости).
ВАЖНО: Нужно именно переключиться на вкладку Lighting correction 2D перед нажатием кнопки OK - если же мы останемся на вкладке Lighting correction 1D и нажмём кнопку ОК - запустится совершенно не та обработка, которая нам нужна.
6. После окончания пакетной обработки меняем нотацию нумерования страниц: в дереве книги кликаем правой кнопкой мыши на узел Standart page и выбираем в контекстном меню пункт Properties:
на вкладке Numbering в поле Format выбираем значение "0001,0002,0003,..." и нажимаем OK. При этом сразу же поменяются имена соответствующих узлов в дереве книги.
7. Не закрывая программу, переходим к следующей операции - пороговой бинаризации.
8. Выделяем все сканы: меню Edit -> Select all.
9. В дереве обработок делаем двойной клик на узел Binarization:
В результате этого появляется окно Binarization:
10. В окне Binarization в окошке Quick preview отображён самый первый скан (при Edit -> Select all). Это окно предназначено для ручного и визуального подбора порога бинаризации, который будет применён ко всем сканам. Методика подбора такова: пробуем перемещать мышкой ползунок Details Filtering и при этом смотрим в окне Quick preview, как это влияет на вид изображения:
Неправильно выбранный порог - слишком низкий. Видно, как "вылезает мусор" - т.е. зачерняются тёмноватые микрообласти на скане. |
Неправильно выбранный порог - слишком высокий. Видно, как "пропадают буквы" - т.е. выбеливаются светловатые буквы (или их кусочки) на скане. |
Правильно выбранный порог - оптимальный. Видно, что мусор не вылезает, но и буквы не пропадают. |
ВАЖНО: Выбрав окончательное значение порога, просмотрите весь скан - путём его прокручивания вверх-вниз и влево-вправо в окошке Quick preview. Это нужно сделать из-за того, что в окошке Quick preview не виден целиком весь скан - а нередко бывает так, что, казалось бы, порог подобран - а стоит прокрутить окошко Quick preview, например, к "корешку" скана - как становится видно, что там, оказывается, вылезает мусор - и надо ещё подкорректировать порог.
11. Окончательно определившись с порогом, нажимаем кнопку ОК в окне Binarization. Запускается процедура пакетной бинаризации. Ждём, пока она не закончится.
12. Теперь нам надо получить наши обработанные сканы из Букресторера (я их называю здесь "тифы" - т.к. они имеют расширение *.tif). Они находятся в нашей книге "book" в собственном формате Букресторера - и нам надо их оттуда экспортировать в формат *.tif в некую пустую папку.
Экспорт готовых тифов делаем так: выбираем в меню Book -> Publish. В появившемся окне Publish выбираем папку Destination folder (куда будут экспортированы готовые тифы), удостоверяемся, что селектор Pages стоит в положении All, в полях Type of files и Color range ставим значения, зависящие от вида наших сканов, например, Type of files = G4-compressed TIFF (*.tif) и Color range = Binary. Нажимаем OK и программа начинает экспорт файлов.
13. Всё готово, закрываем программу и удаляем с диска уже не нужную нам книгу (т.е. папку C:\book).
На рисунках ниже проиллюстрировано, как меняется вид скана в процессе описанной 2-х-этапной обработки:
Исходный скан. Видны
наползающие на текст тёмные тени и
"высвеченная" вертикальная полоса на правой
странице. |
Скан после выравнивания освещённости. Исчезли и наползающие тени, и высвеченая полоса - а сам скан стал равномерно-освещенным по всей своей площади. |
Скан после пороговой бинаризации.
Поскольку он уже был с выровненной
освещённостью, то и бинаризация прошла удачно -
текст виден чётко, никакие буквы не потерялись,
грязи нет.
|
Здесь показан тот же скан, но прошедший обычную бинаризацию (преобразование из серого в чёрно-белое) в программе Irfan View - т.е. без какого-либо выравнивания освещённости и без ручного выбора порога (в Irfan View этот порог жёстко "зашит" в программу и пользователь не может его менять). Хорошо видно, что наползающие на текст тёмные тени стали теперь просто чёрными и "поглотили" текст под собою, а пересвеченная полоса сделала текст под собою более блёклым - по сравнению с остальным текстом. |
В процессе обработки на любом этапе можно сделать "откат" для любой из страниц (если она получилось неудачно) нажатием кнопки и, изменив параметры обработки, обработать её повторно вручную.
Рассмотренная в статье технология не рассматривает случай, когда сканы цветные (или с цветными картинками) или чёрно-белые. Также не рассматриваются серые сканы, содержащие полутоновые рисунки и фотографии. Если таких рисунков в книге немного - то их можно вручную скопировать из исходных сканов и вставить уже в обработанные при помощи Adobe PhotoShop. Можно попробовать (для этого случая) подрегулировать порог бинаризации в окне Binarization не только ползунком Details Filtering (как это описано в статье), но также и ползунком Depth. Как альтернатива, можно выровнять освещённость и в СканКромсаторе 5.6A с использованием зон Exclude and Mark as dither region (для защиты полутоновых рисунков).
После обработки (описанной в статье) нередко требуется устранить кривизну строк и перекос текста со сдвигом.
После этого нужно провести окончательную обработку сканов в СканКромсаторе 5.6A (теперь они уже чёрно-белые) - cделать Despeckle, Deskew, нарезать сканы на ровные листы. Попутно иногда может потребоваться подчистить сканы от крупного мусора - так как он всё-таки местами "вылезает" (после обработки, описанной в этой статье). Это следует делать вручную и в СканКромсаторе.
Автор: monday2000.
8 ноября 2007 г.
E-Mail (monday2000 [at] yandex.ru)