Roman Efimov.
РЕКОМЕНДАЦИИ ПО ПЕРЕВОДУ КНИГ ИЗ БУМАГИ В DJVU-документ.
Этот документ составлен для начинающих в области сканирования
книг, поэтому рекомендованы легко доступные для освоения
специализированные программы.
Следует выделить три этапа:
1. Сканирование
2. Предобработка (чистка, обрезка полей, и т.д.)
3. Кодирование (сжатие) в djvu
1. СКАНИРОВАНИЕ
- В качестве программы сканирования рекомендуется ABBYY Finereader,
триальную версию программы можно скачать с www.abbyy.com. Триальная
версия программы не умеет сохранять распознанное, но это вам и не
нужно, так как вам нужны только функции сканирования.
- разберитесь с настройками сканирования в Finereader. Сканируйте с
разрезанием страниц (если весь разворот книги
умещается на секле сканера), обязательно в режиме серого ( иначе вам
придется бороться с наплывающими на текст черными полосами и
съевшимися вблизи переплета буквами), разрешение 300 дпи.
Предварительно, путем пробных сканов, установите (подгоните точно)
отступы и размеры сканируемой области такими, чтобы поля были
чистыми (не было видно краев страниц, этим вы сэкономите время при
постобработке).
Примечание. Если не жалко времени, сканируйте все в 600 дпи,
потомки вам будут благодарны, так как при 600 дпи не возникает
никаких искажений при обработке и сжатии текста (все нюансы этого
утвержденния будут поняты позже, по приобретению опыта).
- отканировав все страницы, проверьте, чтобы номера файлов страниц
совпадали с их реальными номерами (этим вы проконтролируете
пропущенные или лишние страницы). Сохраните их в формате bmp,
несжатый tiff (по клавише F12) в отдельный каталог.
2. ПРЕДОБОРАБОТКА
- Для предобработки сканов перед сжатием в djvu рекомендуется
использовать специализированную программу "Реставратор книг",
ссылку можно найти через groups.google.com по слову restorerofbooks
- запустив book restorer, создайте новую книгу, импортируйте
сканированные страницы.
- примерный сценарий обработки книги (на примере одной страницы):
- выровняйте освещенность страницы по площади (меню lighting
correction в tools), при на второй закладке измените дефолтное
значение 5 на значение 40.
- устраните наклон (меню deskew)
- сделайте обрезку (меню crop), тут можно обширно поиграться
параметрами; при тщательной настройке ресторер корректно делает
обрезку полей и мусора.
- сделайте фильтрацию (обработку) текста (меню filter), если
хотите.
- устраните кривизну строк через меню Geometrical Correction, тут
можно обширно поиграться параметрами.
- сделайте бинаризацию (конвертацию из серого в черно/белый),
поигравшись с настройками в инструменте binarization, и пользуясь
предпросмотром.
- устраните точечный мусор (меню despekle)
- в принципе, все. Но вы можете использовать другие инструменты,
которые сочтете необходимыми.
Примечание. Некоторые инструменты не работают на черно-белых
изображениях, поэтому бинаризацию делайте на последнем этапе,
перед despekle. Если вдруг у вас исходные сканы оказались в
черно-белом варианте, то перевести их в grayscale через меню
Сolor Conversion.
Как только на примере нескольких страниц вы найдете оптимальный
результат, запишите скрипт с выбранными вами операциями, и дайте
ему имя. "Откатите" обработанные вами страницы в исходное
(необработанное) состояние (для этого есть спец. кнопка в окошке
инструментов). Сохраните книгу.
Через пункт меню Automation вызовите утилиту BKR Automate,
укажите имя книги, созданный вами скрипт, диапазон страниц, и
время начала выполнения (сразу или по расписанию).
Отработав, BKR Automate скажет "Completed" (или "Error", но не
пугайтесь).
Заново открыв книгу в Ресторере, проконтролируйте качество
обработки. Неудавшиеся страницы "откатите" в исходное состояние
(есть спец. кнопка в окошке инструментов) и обработайте вручную.
Сохраните книгу. Выведите (экспортируйте) обработанные страницы
через меню Publish в многостраничный файл TIFF G4, режим binary,
разрешение не меняйте!
Этап предобработки закончен.
3. КОДИРОВАНИЕ (СЖАТИЕ) В DJVU.
- Теперь вам осталось закодировать страницы книги в djvu-файл.
Пользуйтесь djvu-редактором от Lizardtech, таким как фриварная
DjVu Solo 3.1, или DJVU Document Express какой-либо версии.
(Djvu Solo 3.1 можно скачать по URL, найденным через
www.filesearch.ru по ключевому слову "DjvuSolo")
- Откройте в DjVu-редакторе файл TIFF G4, экспортированный из book
restorer.
- Cохраните его как DJVU, указав режим bitonal, разрешение (то
значение, с каким вы сканировали книгу!), bundled (все страницы
в одном файле).
Наши поздравления, книга готова.
Теперь поделитесь книгой с другими, закачав куда-нибудь на
narod.ru и кинув ссылку, например, в fido7.ru.ocr
Roman Efimov.
Roman Efimov
http://www.farlep.net/~roman
