Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".


Перевод шахматной книги в формат ДЕЖАВЮ

Автор: shch_vg

Источник: http://immortal223.borda.ru/?1-8-40-00000034-000-0-0

Предисловие

В начале 2006 года у меня появился сканер, и я решил попробовать перевести несколько книг из моей шахматной библиотеки в djvu-файл. С помощью Интернета быстро разобрался с этапами создания такого файла и на первой же книге понял, что основная работа приходится на этап обработки сканов.

Программа, делавшая эту обработку, обладала таким большим количеством настроек, что пришлось потратить изрядное количество времени, чтобы найти методом проб и ошибок варианты, позволявшие во многих случаях (увы, не во всех) добиться приемлемого результата.

Чуть позднее стали появляться описания этой программы в большей или меньшей степени детализации, но они делались с ориентацией на техническую и художественную литературу, поэтому предлагаемые в них методы не всегда срабатывали для шахматной, основная проблема которой - соответствие качества обработанного текста и качества шахматных диаграмм.

Мне захотелось сделать описание процесса обработки именно шахматной книги, но, обработав более 60 книг, я понял, что не знаю универсального способа этой обработки.

Возможно, именно это заставляло меня не бросать это дело, т.к. при обработке новой шахматной книги приходилось искать какие-то новые варианты настройки, т.е. присутствовал какой-то элемент познания.

Тогда мне пришла в голову мысль: раз уж я не могу описать общий процесс обработки шахматной книги, то почему бы для людей, которые, возможно, хотели бы этим заняться или ознакомиться с процессом обработки, не описать в картинках полный процесс создания, начиная со сканирования и кончая компиляцией (кодированием) djvu-файла, на примере небольшой книги?

Именно на таких людей рассчитано это описание, вряд ли те, кто уже занимался обработкой книг, найдет здесь для себя что-то полезное.

Для этой цели я выбрал брошюру Н.В.Крогиуса "О психологии шахматного творчества", М., из-во ФиС, 1969г., 96 стр.
Задачей для меня являлось минимальными средствами получить приемлемый результат.

Для знакомства с нижеизложенным не требуется никаких программ или устройств, достаточно просмотреть картинки с их описанием.
Большая часть из описанного применима и к книгах другой направленности.

Сканирование

Я хочу получить цветные сканы обеих обложек книги и черно-белые сканы всех ее разворотов. Однако я буду делать их в серой (gray) градации, а не черно-белой, т.к. именно такой вариант сканов легче в последствии обрабатывать. Кроме этого, для разворотов я выставлю разрешение сканирования 300dpi, а для для цветных обложек – 150 dpi. Если выставить большие значения, то это резко увеличит время сканирования, объем сохраняемых файлов и соответственно замедлит загрузку файлов в память при дальнейшей их обработке.

Сканировать я предпочитаю с помощью замечательной программы Vuescan, которая весьма удобна в применении и полностью соответствует всем вышеизложенным требованиям.

Хочу также заметить, что сканы пары первых своих книг я делал с помощью программы FineReader, но после того, как я познакомился с Vuescan, выбор был сделан в ее пользу. Тем из вас, кто предпочитает сканировать с помощью других программ, рекомендую пропустить описание Vuescan и сразу перейти к следующему этапу создания книги.

При сканировании я использую самый простой сканер формата А4 HP ScanJet 2400, описание которого появилось в базе данных программы Vuescan где-то начиная с версии 3.27. Всего же в этой базе содержится на данный момент настроек на более 500 сканирующих устройств, поэтому она может не работать только с какими-либо экзотическими сканерами, либо с совсем новыми. В этом случае описания этих устройств наверняка появятся в следующих выпусках программы, которая обновляется регулярно.

Vuescan занимает на диске примерно 3,5 мб, при этом в системный реестр она пишет только ключи регистрации. Для работы потребуется зарегистрированная версия программы, в противном случае мы рискуем остаться без некоторых необходимых для нас функций, и на каждом скане будут добавляться совсем не нужные нам знаки.

При установке программы сообщается, что она устанавливается в директорию c:\vuescan, но на самом деле программа помещается на тот раздел диска, на котором установлена ваша операционная система.

Лирическое отступление
Программу нужно запускать, предварительно включив сканер, чтобы программа имела возможность определить тип сканера.

При первом запуске зарегистрированной программы выводится окно с разными умными советами по программе, но я сразу же убираю галочку в окошке show tips at startup (так как буду использовать в дальнейшем эту программу одним и тем же способом), после чего появляется окно

После нажатия кнопки внизу Advanced перехожу к следующему окну

далее жму кнопку внизу More и оказываюсь на закладке Input, на которую я буду сразу попадать при последующих запусках программы:

На этой закладке для меня интерес представляют несколько полей:
- список Source, в котором я вижу название своего сканера;
- список Media, из которого я буду использовать варианты Color photo для цветных обложек и B/W photo для разворотов;
- список Preview resolution, который я устанавливаю на 75 dpi
- список Scan resolution, из которого будут выбираться варианты 150 dpi для цветных обложек и 300 dpi для разворотов;
- список Rotation, в которым я буду использовать варианты None для обложек и Left для разворотов.

Стоит заметить, что значение списка Rotation влияет только на ориентацию изображения скана в данной программе, реальная ориентация изображения скана определяется расположением книги по отношению к сканирующему лучу!

Лирическое отступление
Надо отдавать себе отчет, что любое сканирование домашним сканером является насилием над книгой, т.к. для получения даже просто удовлетворительного результата приходится порой применять усилия, которые могут привести к потере товарного вида книги. У меня несколько книг после сканирования просто распались на отдельные страницы.

Так как в первую очередь страдают обложки книг, рекомендую начинать сканирование с них. В связи с этим устанавливаю на закладке Input значение списков Media в Color photo, Scan resolution в 150 dpi и Rotation в None и перехожу на закладку Output

При первом входе в программу в поле JPEG file стоит галочка, которую я сразу же убираю и перехожу к виду закладки Output, который будет у нее при последующих входах в программу:

На этой закладке в списке Raw file type устанавливаю для обложки вариант 24 bit RGB (для разворотов я буду выставлять вариант 8 bit Gray). После чего создаю директорию для размещения создаваемых сканов (в моем случае на D: создаю директорию scan, а в ней директорию Krogius).

Затем, нажав на кнопку @ правее списка Raw file name, в появившемся окне перехожу в только что созданную директорию Krogius, выставляю имя obl1+.tif (знак + в имени файла позволяет программе автоматизировать присвоение последовательных имен в случае создания нескольких сканов) и закрываю это окно.

Программа готова к сканированию!

Лирическое отступление
Рекомендую в процессе сканирования обращать внимание на состояние рабочей части стекла сканера и почаще его протирать для получения лучших результатов сканирования.

Укладываю книгу лицевой обложкой вниз так, чтобы сканирующий луч проходил ее сверху вниз и нажимаю кнопку Preview в нижней части окна. После прогревания сканера луч пробежит рабочую зону сканера, и программа представит результат предварительного просмотра (Preview)

Программа сама попытается определить область предполагаемого сканирования и представляет результат своей попытки пунктирным прямоугольником. Если результат определения вас не устраивает, можно любую сторону прямоугольника перемещать в пределах большого черного прямоугольника. Для этого становимся на нее, нажимаем левую клавишу мыши и, не отпуская ее, перетаскиваем в нужное место.
Установив нужный пунктирный прямоугольник, нажимаю кнопку Scan внизу окна и через несколько секунд после прохождения луча сканирования вижу результат сканирования

Аналогичным образом сканирую обратную сторону обложку. По завершении можно зайти в директорию Krogius, убедиться в наличии в ней двух файлов obl1.tif и obl2.tif и посмотреть их содержимое (для этого рекомендую программу IrfanView).

Завершив сканирование обложек, перехожу к настройке сканирования разворотов книги. На закладке Output значение списка Raw file type меняю на 8 bit Gray, а Raw file name на kr01+.tif, т.к. сканируемая мной книга имеет меньше 100 разворотов.

Лирическое отступление
Если в книге более 100 разворотов, то к префиксу лучше добавить 001+. Можно задавать и 1+, программа обработки сканов ScanKromsator корректно расставит файлы в порядке сканирования, но при просмотре директории сканов будет некоторое неудобство.

Перехожу на закладку Input и меняю значение списка Media на B/W photo, списка Scan resolution на 300 dpi и списка Rotation на Left.

Лирическое отступление
Т.к. разворот книги, как правило, приближается, а возможно даже превышает у некоторых книг формат А4, то ее можно расположить в рабочей области сканера только так, что сканирующий луч пересекает страницу книги не вертикально, а горизонтально. Старайтесь расположить так, чтобы луч пересекал страницу слева направо. В этом случае после сканирования очередного разворота при выбранном значении Left списка Rotation будете получать горизонтальную картинку в правой части окна программы.

Раскрываю первый разворот книги и размещаю его на рабочей части стекла сканера так, чтобы левый нижний угол разворота совместился с правым углом стороны стекла, откуда появляется луч. Делаю это для того, чтобы перед сканированием каждой страницы не делать предварительного предпросмотра. Жму на кнопку Preview, после прохождения луча область пунктирного прямоугольника остается от сканирования обложки. Становлюсь в эту область, делаю двойной щелчок левой кнопкой мыши. Программа выдает мне предполагаемую область сканирования.

Если мне нужно, корректирую ее и жму кнопку Scan. После завершения сканирования разворота получаю такую картинку

а в директории Krogius файл kr01.tif.

Далее начинается рутинная работа: поднимаю книгу, переворачиваю страницу, кладу ее обратно тем же углом в тот же угол, т.к. мышь у меня находится на кнопке Scan, то жму левую клавишу мыши и жду примерно 20 сек прохождения луча в прямом направлении. Как только луч пошел обратно, поднимаю книгу,... и т.д.

По ходу этого интеллектуального процесса, зависящего от количества разворотов в книге, стараюсь следить в окне программы за правильностью расположения изображения, за чистотой стекла сканера, протирая его по мере необходимости, краем глаза за происходящим на экране телевизора (особенно хорошо это делать под российский футбольный матч, чуть хуже под какой-нибудь фильм, т.к. можно потерять его сюжетную линию :)).

Лирическое отступление
Одной рукой приходится прижимать плотно книгу к стеклу. Попытки заменить ее на какой-нибудь груз типа увесистой книги у меня давали худший результат. Чем толще книга, тем крепче ее надо прижимать в середине разворота, т.к. при недостаточном прижатии посредине образуется темная зона (наиболее удаленная от луча), которая накрывая буквы текста создает дополнительные трудности при дальнейшей обработке сканов.

Принцип здесь простой: чем лучше скан, тем легче его обрабатывать!

Если же в процессе сканирования рука дрогнет, книга сместится, то я захожу в директорию со сканами, убиваю скан с самым большим номером и делаю повторное сканирование этого разворота

После 49 описанных выше манипуляций получаю картинку в окне программы

после чего процесс сканирования завершается.

Если зайти в директорию Krogius, то можно увидеть такую картину

 

Из нее видно что отсканирован 51 файл, сканы обложек примерно по 2 мб, сканы разворотов около 6 мб. Суммарный объем всех сканов - 295 мб.

Обработка сканов

Если в процессе сканирования я использовал замечательную программу Vuescan, то при обработке сканов я буду использовать суперзамечательную программу ScanKromsator,отсутствие которой делало бы весь мой труд бессмысленным, т.к. аналога ее я не знаю.
Я пользуюсь программой версии 5.6А, с более ранними версиями я не работал, версию 6.65DEBUG использую крайне редко, т.к. автор заблокировал в ней некоторые нужные мне функции. Ожидается новая версия программы, но на момент написания ее еще пока нет во всеобщем использовании.

После запуска программы видим следующее:

 

Для себя это окно я делю на 3 рабочих области: слева вверху - белая область файлов (обрабатываемых), точно под ней - область настроек, состоящая из закладок и справа от них - область сканов. Кроме перечисленного я буду еще использовать функции, доступные через меню, находящееся под заголовком, и дополнительное меню, которое находится под основным и содержит кнопки быстрого доступа к некоторым функциям и окошки, управляющие появлением резаков в области сканов.

На представленной выше картинке видны только окошки вертикальных резаков Х, т.к. я использую 17-дюймовый монитор CRT. Для того, чтобы получить доступ к окошкам горизонтальных резаков Y я должен отвести влево линию, разделяющую две первые области и область сканов.

Продолжим дальнейшую обработку сканов.

В основном меню выбираю пункт Edit, а в открывшемся списке пункт Open (в дальнейшем я буду такие действия описывать короче - Edit->Open). Того же эффекта можно достичь нажав левую кнопку на дополнительном меню , а именно:

 

Сразу же убираю галочку внизу окна в окошке Preview, чтобы не терять время на предпросмотры, выбираю все файлы из директории Krogius, начинающиеся на kr, и жму кнопку Открыть.

 

Область файлов слева вверху заполнена выбранными файлами, которые расположены в порядке возрастания номера. Слева от каждого файла есть окошечко, которое говорит о текущем состоянии файла. Программа сможет обработать файл, если только в окошке появится зеленая галка. У меня же сейчас у всех загруженных файлов окошки пустые, первый файл kr01.tif выделен темно-синим цветом, а справа в области сканов представлен этот файл в его настоящей ориентации. Такая же ориентация и у остальных сканов. Точно также будут ориентированы сканы и в любом просмотрщике изображений.

Следующим шагом я изменяю реальную ориентацию всех сканов на нормальную следущим образом: выбираю в меню Image->Potate&Save.

 

В появившемся окне в списке Rotate устанавливаю значение All, а в списке Angle value - 90 и жму на кнопку ОК.

В предупредительном окне

нажимаю Да, и процесс разворачивания сканов пошел.

 

Через несколько минут (в зависимости от быстродействия компьютера) появляется окно, в котором у первого скана горизонтальная ориентация (как впрочем и реально на диске). Теперь просматривать сканы на диске будет проще!

 

Теперь я начинаю готовить файлы к обработке, для этого надо заставить программу правильно расставить на сканах резаки, определяющие области обработки.
Перехожу в основном меню в Edit->Draft Kromsate либо в дополнительном меню нажимаю кнопку и попадаю в окно

 

Для дальнейшей правильной обработки в списке Kromsate должно быть выбрано значение All, также ставлю галочки в окошки Split pages (для разделения разворота на отдельные страницы) и Save top/bottom (чтобы резаки не отсекали номера страниц), а также убираю галочку из окошка Save after rotate, т.к. я не буду сейчас поворачивать сканы.

Лирическое отступление
Ранее я не делал предварительного поворота сканов, описанного выше, а выставлял в этом окне в списке Pre-rotate поворот на 90 с сохранением повернутых сканов. Однако после того, как на нескольких книгах программа зациклилась в этом месте, стал делать отдельно повороты и предобработку сканов.

После нажатия на кнопку ОК начинается процесс предварительной обработки, который может занять несколько минут.

 

После завершения предварительной обработки сканов получаю окно

 

Первое, что бросается в глаза, - около всех файлов из области файлов слева вверху появились зеленые галочки.

Далее видно, что в области сканов появились горизонтальные и вертикальные синие линии (именно их я ранее называл резаками!), которые образуют прямоугольник в правой части скана - область, которую в дальнейшем будет обрабатывать программа. Все, что находится вне этой области, будет потеряно, поэтому надо отслеживать, чтобы нужная информация скана не оказалась за пределами прямоугольника.

Резакам, образующим прямоугольник, соответствуют окошки Automargins Т,В на закладке Pages в области настроек (внизу слева). Убирание галочки в одном из четырех окошек приводит к изменению цвета соответствующего резака на малиновый. Если программа не уверена в правильности определения положения какого-нибудь резака, она не проставляет галочку в соответствующее окошко, а имя файла в области файлов выделяет жирным шрифтом.

В нашем случае этого нет, т.е. по мнению программы нет сомнительных расстановок резаков. Однако стоит проверять программу, т.к. иногда резаки расставляются неправильно.

Стоит еще заметить, что программа обнаружила, что в левой половине скана нет информации и не стала ее подготавливать к обработке. Надо заметить, что это не всегда удобно, т.к. в книге могут встретиться пустые страницы, и такой выброс их может привести, к неправильной нумерации страниц, например, после 50 страницы в результирующем файле появится сразу 52 страница. Я в таких случаях рекомендую добавлять пустую страницу, т.к. наличие ее не сказывается на объеме книги.

Прежде чем перейти к просмотру последующих страниц, в области настроек закладки Pages в списках Page h.align и Page v.align выставляю значения С, что означает выравнивание по центру соответственно по горизонтали и по вертикали.

Для перехода к другим файлам я пользуюсь выбором нужного файла из области файлов (нужно стараться не становиться на окно с зеленой галочкой, что приведет к ее исчезновению и выпаданию этого файла из дальнейшей обработки), но в большинстве случаев при последовательных переходах на следующий/предыдущий файл клавишами клавиатуры W (вперед) и Q (назад).

Итак, нажимаю W и перехожу на файл kr02.tif.

 

Расстановка резаков на этом скане меня устраивает, корректирую только значения в списках Page h.align и Page v.align (см.рис. выше) и перехожу на следующий скан, нажав W.

 

Теперь самое время выставить значения в списках Page h.align и Page v.align не только для этого скана, но и для всех последующих, поступаю так: определяюсь, что буду выравнивать по горизонтали по центру, а по вертикали по низу (если нумерация страниц сверху, я выбираю тогда выравнивание по верху; можно в обоих этих случаях попробовать также выравнивание по центру), затем при нажатой клавише Alt в первом окошке списка Page h.align выбираю С и попадаю на окно

 

Устанавливаю значение All marked from current to end и жму ОК. Ответив Да на выданное предупреждение, возвращаюсь на окно с файлом kr03.tif. Аналогичную процедуру делаю для второго окошка списка Page h.align, затем для обоих окошек списка Page v.align, выбирая в них значение В.

После этого на всех последующих файлах будут одинаковые значения этих списков, остается только при просмотре правильности выставления резаков отслеживать правильность выравнивания, что заведомо верно для подавляющего количества дальнейших сканов.

Например, попав на скан kr09.tif

 

имеет смысл во втором окошке списка Page v.align выставить значение Т (не нажимая на Alt!).

Выставления резаков и выравнивания страниц недостаточно для качественной обработки сканов, поэтому при просмотре сканов, я стараюсь найти скан, который, как мне кажется, является типичным, и на нем выставить другие параметры обработки. В отличие от технической и художественной книги, содержащих как правило текст и картинки, шахматная книга содержит еще и диаграммы, без приличного отображения которых теряется нормальное восприятие сопровождающего их текста.

Основная моя цель - добиться приемлемого вида текста и диаграмм на одном скане, что на мой взгляд является самым трудным моментом в обработке книги.

Подходящим для этого оказывается файл kr10.tif.

 

Устанавливаю на закладках области настроек необходимые мне значения, поясняя смысл некоторых из них. Надо иметь ввиду, что некоторые параметры являются локальными, т.е. действующими только на данный скан, некоторые глобальными, т.е. их значение распространяется сразу на все помеченные (с зеленой галочкой) файлы, а есть и такие, которые являясь локальными, но их значения могут быть распространены на группу других файлов. С этим мы уже столкнулись на примере списков Page h.align и Page v.align.

Итак, перехожу на закладку Book области настроек. В списке H.Gap value набираю 130, замечаю, что это число появляется в списке V.Gap value, убираю галочку из окошка vert.gap=hor.gap и выставляю в списке V.Gap value 170. Значения этих параметров задают величину полей обработанных страниц.

Все значения параметров этой закладки являются глобальными.

Перехожу на закладку Files.

 

В окошке левее Default ставлю галочку, после чего в поле, расположенном под текстом Output dir: появляется строчка D:\scan\Krogius\out - указатель на директорию, в которую будут помещаться обработанные tif-ы, в поле Output preffix пишу kr - префикс в именах обработанных tif-ов, в поле Name length ставлю 2, поскольку обработанных tif-ов меньше 100, а в этом поле задается длина суффикса (порядкового номера tif-а)имени. В списке Color выбираю значение B/W, а в списке DPI - значение 600dpi для повышения разрешения вдвое.

Лирическое отступление
В первых своих книгах я достаточно много раз пытался обработать со значением 300dpi. Единственный плюс такого выбора, на мой взгляд, небольшой размер обработанных страниц, а, значит, и djvu-файла. Гораздо лучшего качества можно достигнуть именно при повышении разрешения до 600dpi.

На этой закладке все значения параметров тоже глобальные.

Следующая закладка - Options.

 

Здесь в списке Deskew method выбираю значение Auto(shear) - вариант поворота изображения, а в списке Despeckle - Normal - вариант очистки изображения.

Все переменные этой закладки, как и следующей - Options2 глобальны.

Перехожу на закладку Options2.

Устанавливаю значение списка Cutter state в Only cut, первый движок в среднее положение, второй - в крайнее правое.

Остальные закладки пока не трогаю и приступаю к обработке текущего файла (kr10.tif). Для этого выбираю в меню Process->Current file (либо жму в дополнительном меню третью справа кнопку ), после чего появляется окно предупреждения,

 

которое будет появляться каждый раз при попытке начать процесс обработки одного или нескольких сканов с увеличением разрешения изображения. Для продолжения процесса нажимаю кнопку Да. После некоторого времени обработки, которое при маломощности процессора может достигать нескольких минут, появится окно постобработки с первой страницей обработанного файла.

 

Она представлена в виде One page, т.е. вся страница видна целиком по высоте. Заметим, что внизу справа приведено имя этого изображения в директории постобработки (kr18.tif в директории D:\scan\Krogius\out). Для укрупнения изображения на экране с помощью движка в верхней части окна добъемся, чтобы изображение занимало все окно по ширине.

 

Пролистывая это изображение с помощью полосы прокрутки справа, я вижу что текст вполне читаемый. Однако меня больше интересуют диаграммы, которые находятся на правой половине скана.

Для перехода на следующее изображение я использую клавишу клавиатуры W или вторую зеленую кнопку в левом верхнем углу окна .

 

Перейдя на следующую обработанную страницу я вижу, что диаграммы видны плохо. Теперь настала пора использовать оставшиеся закладки

области настроек. Перехожу на закладку Convert

 

В списке Left page выбираю значение User, которое появляется и в списке Right page, в правом поле меняю 150 на 160.

На закладке Quality

в окошко Enhance image ставлю галочку, затем галочку в окошко Sharpen, а правее его значение 2 для улучшения диаграмм.
Запускаю обработку правой страницы текущего разворота (Process->Group->Process half-page->right page либо на дополнительном меню правую кнопку с синей стрелкой вправо ) и получаю результат

 

Сравнивая с предыдущим выполнением, вижу что и текст стал лучше, и заметно улучшилось качество диаграмм. Так как моей целью является описание процесса обработки, остановлюсь на достигнутом, хотя здесь достаточно возможностей для поиска более лучшего качества.

Самое важное лирическое отступление
Я считаю, что правильная настройка параметров обработки именно здесь является ключевым моментом в обработке книги. Советую на одном из таких сканов проверить, как будет изменяться вид и размер обработанной страницы для разных значений списков на закладке Convert, а также разных значений параметров Smooth, Blur и Sharpen на закладке Quality.

Теперь мне нужно распространить свойства, выбранные на двух последних закладках, на все обрабатываемые файлы. Перехожу на закладку Convert и при нажатой клавише Ctrl выбираю из списка Left page значение User. В появившемся окне предупреждения

 

отвечаю Да, в результате чего у всех файлов на закладке Convert в списках будет одинаковое значение. Аналогичную процедуру произвожу на закладке Quality, с той лишь разницей, что сначала просто убираю галочку в окошке Enhance image, а затем при нажатой клавише Ctrl проставляю эту галочку снова.

Итак, все мои сканы готовы к обработке, но я продолжаю просматривать оставшиеся файлы до конца, подправляя где надо положение резаков и выравнивание страниц.

Лирическое отступление
При просмотре книг с большим количеством страниц рекомендую на некоторых файлах по вашему усмотрению делать обработку, чтобы убедиться, что выбранные вами параметры годятся и для других страниц. Это может привести к переустановке параметров, если вы сочтете это нужным.

Просмотрев все файлы до конца, я перед общей обработкой делаю две вещи. Сначала захожу в директорию out, куда будут помещаться обработанные изображения, и очищаю ее полностью, чтобы программа при выполнении не задавала по ходу ее дополнительных вопросов. Затем в диспетчере задач Windows (Ctrl+Alt+Del и Диспетчер задач) на закладке Процессы процессу sk.exe назначаю самый маленький приоритет, т.к. программа SkanKromsator при обработке загружает процессор почти на 100% и будет серьезно затруднять работу других программ.

Вот теперь можно запускать полную обработку, что я и делаю через Process->All или кнопку Process! на дополнительном меню.
В появившемся окне выполнения периодически появляется информация о времени выполнения обработки, которое сильно зависит от быстродействия компьютера.

У меня обработка производилась на компьютере с процессором Celeron Pentium III с частотой 1200 Mhz.

Используя информацию из этого окна, вы можете распоряжаться своим временем, как пожелаете, т.к. до завершения процесса обработки ваше присутствие не обязательно.

После завершения обработки программа выдала такую информацию

 

большая часть которой понятна без объяснений, а после нажатия кнопки ОК, появляется окно постобработки изображений (Result view). Однако я сразу же закрываю его, перехожу на закладку Book и в списках Page width и Page height меняю значение Auto на Fixed, при этом замечаю, что в полях справа появились числа 2945 и 4732.

 

Это размеры всех обработанных изображений, а своей заменой я избегаю лишних надоедливых вопросов, которые программа будет задавать при дальнейших попытках выполнить обработку того или иного файла.

В принципе осталось только просмотреть полученные изображения страниц книги, подправить установки и повторно обработать неудавшиеся страницы и перейти к процессу компиляции файла дежавю. Судя по качеству выкладываемых в Интернете файлов, это довольно распространенное явление, однако я предпочитаю по мере моих возможностей дополнительно обрабатывать страницы, удаляя на них всю ненужную грязь.

Для этой цели я использую постобработку страниц, доступную в этой программе.

Выбираю в области файлов (слева вверху) первый файл - kr01.tif и перехожу в окно постобработки (Result->View all). Если надо, движком вверху устанавливаю изображение по ширине экрана.

 

На рисунке выше заметны множество мелких точек, которые не украшают общий вид. Встречается грязь и покрупнее, что можно заметить на одном из белых полей диаграммы на одном из рисунков выше. В связи с этим нужно сказать несколько слов о принципах борьбы этой программы с грязью на изображениях.

Вся грязь делится на два вида - speckle (крапинки,пятнышки) и грязь более крупного размера. Соответственно имеются два способа удаления грязи - despeckle и clear (удаление более крупной грязи). Эти способы задаются кнопками, находящимися вверху окна постобработки . При нажатии зеленой кисти включается режим Auto-clear, при нажатии красной - Auto-despeckle. Принцип очистки прост: нажимаем левую кнопку мыши в любом месте изображения, потом, не отпуская мышь, перемещаем ее в другую точку (на экране появляется пунктирный прямоугольник, как на предыдущем большом рисунке). Теперь если отпустить левую кнопку мыши, выбранный нами режим произведет обработку области, заключенной этим прямоугольником.

Разница в режимах очистки одна - при Auto-clear стирается все, что попадает в прямоугольник, а при Auto-despeckle стираются только speckle. Поэтому в первом случае нельзя прямоугольником задевать нужную нам информацию, во втором же, если величина speckle невелика, можно смело захватывать прямоугольником всю страницу - за одно действие она будет очищена от пятнышек вся.

ВАЖНО! Если результат очистки вас не устраивает, то нажав одновременно клавиши клавиатуры Ctrl и Z можно восстановить предыдущее состояние страницы, повторное нажатие этих же клавиш - предпредыдущее и т.д.!

Лирическое отступление
Настоятельно НЕ рекомендую в режиме Auto-despeckle захватывать диаграммы, т.к. этот режим может существенно влиять на вид черных полей диаграмм!

Величина speckle в пикселях задается в окне Clear options на закладке Despeckle. Попасть в это окно можно, нажав в любом месте поля постобработки правую клавишу мыши и выбрав в появившемся меню

 

строку Clear options. (На рисунке изображена только часть меню!).

Лирическое отступление
Выше строки Clear options расположены две полезные строки: AutoSave и AutoClear. Наличие галочки рядом с первой строкой (для чего надо выбрать ее) дает возможность программе автоматически сохранять измененную страницу при переходе к следующей, отсутствие галочки вынудит программу спрашивать каждый раз разрешение на сохранение страницы. Выбор второй строки в меню равносилен выбору режима чистки через зеленую или красную кисти вверху окна.

Нас в этом окне сейчас интересует три списка - Despeckle method, Speckle size (fine) и Change mode by mouse dbl-click. Значение первого - fine, именно поэтому используется второй список. В нем первоначально стоит 7, я буду использовать 9, но это на мой взгляд самый максимум, при котором уже могут пропадать попавшие в прямоугольник точки. В третьем списке должно быть значение Clear/despeckle, это очень полезно при очистке страницы, когда двойным щелчком на изображении происходит переключение из Auto-clear в Auto-despeckle и обратно.
Для иллюстрации процесса чистки я создал засоренную грязью страницу.

 

На нем видно, что включен режим Auto-despeckle и в прямоугольник заключена вся видимая часть изображения. После отпускания мыши удаляются все спеклы.

Остались только 3 крупных точки, а также фрагменты грязи, касающиеся букв, которые программа не смогла идентифицировать как спекл. Их надо удалять, переключившись двойным щелчком мыши в режим авточистки.

Таким образом я очищаю от грязи все страницы.

По мере прохода страниц могут обнаружиться неудачно обработанные страницы: потерявшие часть нужной информации из-за неверной установки резаков, располагающиеся с некоторым поворотом (программа не смогла правильно повернуть страницу), имеющие неверное расположение фрагмента страницы из-за неправильного выравнивания страницы, с недостаточной или чрезмерной яркостью текста и/или диаграмм и т.д.

В этих случаях я исправляю установки на конкретную страницу и повторно ее обрабатываю, пока не получу необходимый мне результат.

Завершив подобную обработку всех страниц, я перехожу к последнему этапу своей работы.

Компиляция dejavu

Самый простой этап - компиляция файла формата djvu из обработанных страниц - я произвожу программой Lizardtech Document Express Editor 5.0. Думаю это не единственная программа, способная выполнить эту работу, но я использую только ее.

После запуска программе в появившемся окне

 

выбираю в меню Файл->Открыть... либо жму на кнопку в меню быстрого запуска. В появившемся стандартном окне для выбора файла (Открыть)перехожу в директорию out, содержащую обработанные страницы, устанавливаю список Тип файлов в значение TIFF Файлы (*.tiff;*.tif).

 

Лирическое отступление
Кстати это самый большой раздражающий недостаток этой программы, т.к. каждый раз при обращению к окну Открыть в списке Тип файлов стоит значение DjVu Файлы (*.djvu;*.djv) и приходится делать перевыборку этого значения.

Из появившегося списка тиф-файлов выбираю первый (kr01.tif) и нажимаю кнопку Открыть.

 

Становлюсь на квадрат слева с текстом страница 1, отчего фон его становится темно-синим, нажимаю правую кнопку мыши. В появившемся контекстном меню выбираю строку Добавить страницы после. Снова появляется окно Открыть, снова приходится менять значение списка Тип файлов :(. Выбираю все оставшиеся файлы (kr02.tif-kr96.tif). Один забавный момент: чтобы в окошке Имя файла (а значит и в левой части программы!) эти файлы появились в порядке возрастания, нужно сначала стать на последний файл (kr96.tif), затем горизонтальным движком добиться появления файла kr02.tif и при нажатой клавише Shift выбрать этот файл. Убеждаюсь, что в окошке Имя файла файлы стоят в порядке возрастания, нажимаю кнопку Открыть.

Лирическое отступление
Если приходится компилировать книги, содержащие много страниц, я разбиваю процесс компиляции на несколько, чтобы за один раз компилировалось не более 100 страниц. Получившиеся промежуточные файлы djvu легко и быстро объдиняются этой программой, причем в окне Открыть не надо будет менять значение списка Тип файлов :). При попытке откомпилировать сразу много страниц у меня эта программа работала нестабильно!

Через некоторое время получаю в окне программы следующее

 

Перехожу, используя меню, в окно Сохранить как (Файл->Cохранить как...), устанавливаю в окошке Имя файла значение kr01-96.djvu (удобно для запоминания диапазона компилируемых страниц!), а в нижнем списке Качество текста значение форсированный, жму на кнопку Сохранить.

Процесс компиляции пошел...

 

Через несколько минут процесс заканчивается, а в директории out появляется файл kr01-96.djvu объемом 1623 кб. Осталось добавить начальную и конечную обложки. Становлюсь на прямоугольник, содержащий образ первой страницы, нажимаю правую кнопку мыши и в контекстном меню выбираю Добавить страницы до. В появившемся окне Открыть перехожу в директорию Krogius (содержащую образы обложек), выбираю файл obl1.tif и жму кнопку Открыть. Слева вверху окна программы появляется образ начальной обложки.

 

Становлюсь слева на квадрат с последней страницей, вызываю контекстное меню и жму на строку Добавить страницы после. В появившемся окне Открыть выбираю файл obl2.tif и жму кнопку Открыть.

Перехожу в окно Сохранить как, устанавливаю в окошке Имя файла окончательное значение файла Krogius.djvu, в списке Профиль значение Фотография, в списке Разрешение (dpi) значение 150, а в списке Качество текста значение нормальный

 

и жму на кнопку Сохранить. На этот раз процесс компиляции проходит гораздо быстрее и вскоре в директории out появляется файл Krogius.djvu объемом 1687 кб.

Моя работа завершена!

Заключение

Действия, описанные в разделах сканирования и компилирования, я использую при переработке каждой книги.

Сложнее дело обстоит с обработкой. Надо иметь ввиду, что раздел обработки сканов с помощью ScanKromsator'a описан мной на небольшой книге. В действительности на больших книгах приходится на этот этап тратить гораздо больше усилий, использовать более сложные приемы для получения лучшего качества обработки.

Дополнительные сложности вносят рисунки и картинки, обработка которых не рассмотрена мной из-за их отсутствия в выбранной книге.
Более того, у меня есть несколько отсканированных книг, которые я не могу пока обработать и получить приемлемый результат.

В завершение я хочу сказать, что если хотя бы один человек найдет в моем описании для себя что-то полезное, я буду считать, что делал это не зря!


Автор: shch_vg

Источник: http://immortal223.borda.ru/?1-8-40-00000034-000-0-0

Подготовил: monday2000.

28 декабря 2009 г.

monday2000 [at] yandex.ru

Hosted by uCoz