Roman Efimov. РЕКОМЕНДАЦИИ ПО ПЕРЕВОДУ КНИГ ИЗ БУМАГИ В DJVU-документ. Этот документ составлен для начинающих в области сканирования книг, поэтому рекомендованы легко доступные для освоения специализированные программы. Следует выделить три этапа: 1. Сканирование 2. Предобработка (чистка, обрезка полей, и т.д.) 3. Кодирование (сжатие) в djvu 1. СКАНИРОВАНИЕ - В качестве программы сканирования рекомендуется ABBYY Finereader, триальную версию программы можно скачать с www.abbyy.com. Триальная версия программы не умеет сохранять распознанное, но это вам и не нужно, так как вам нужны только функции сканирования. - разберитесь с настройками сканирования в Finereader. Сканируйте с разрезанием страниц (если весь разворот книги умещается на секле сканера), обязательно в режиме серого ( иначе вам придется бороться с наплывающими на текст черными полосами и съевшимися вблизи переплета буквами), разрешение 300 дпи. Предварительно, путем пробных сканов, установите (подгоните точно) отступы и размеры сканируемой области такими, чтобы поля были чистыми (не было видно краев страниц, этим вы сэкономите время при постобработке). Примечание. Если не жалко времени, сканируйте все в 600 дпи, потомки вам будут благодарны, так как при 600 дпи не возникает никаких искажений при обработке и сжатии текста (все нюансы этого утвержденния будут поняты позже, по приобретению опыта). - отканировав все страницы, проверьте, чтобы номера файлов страниц совпадали с их реальными номерами (этим вы проконтролируете пропущенные или лишние страницы). Сохраните их в формате bmp, несжатый tiff (по клавише F12) в отдельный каталог. 2. ПРЕДОБОРАБОТКА - Для предобработки сканов перед сжатием в djvu рекомендуется использовать специализированную программу "Реставратор книг", ссылку можно найти через groups.google.com по слову restorerofbooks - запустив book restorer, создайте новую книгу, импортируйте сканированные страницы. - примерный сценарий обработки книги (на примере одной страницы): - выровняйте освещенность страницы по площади (меню lighting correction в tools), при на второй закладке измените дефолтное значение 5 на значение 40. - устраните наклон (меню deskew) - сделайте обрезку (меню crop), тут можно обширно поиграться параметрами; при тщательной настройке ресторер корректно делает обрезку полей и мусора. - сделайте фильтрацию (обработку) текста (меню filter), если хотите. - устраните кривизну строк через меню Geometrical Correction, тут можно обширно поиграться параметрами. - сделайте бинаризацию (конвертацию из серого в черно/белый), поигравшись с настройками в инструменте binarization, и пользуясь предпросмотром. - устраните точечный мусор (меню despekle) - в принципе, все. Но вы можете использовать другие инструменты, которые сочтете необходимыми. Примечание. Некоторые инструменты не работают на черно-белых изображениях, поэтому бинаризацию делайте на последнем этапе, перед despekle. Если вдруг у вас исходные сканы оказались в черно-белом варианте, то перевести их в grayscale через меню Сolor Conversion. Как только на примере нескольких страниц вы найдете оптимальный результат, запишите скрипт с выбранными вами операциями, и дайте ему имя. "Откатите" обработанные вами страницы в исходное (необработанное) состояние (для этого есть спец. кнопка в окошке инструментов). Сохраните книгу. Через пункт меню Automation вызовите утилиту BKR Automate, укажите имя книги, созданный вами скрипт, диапазон страниц, и время начала выполнения (сразу или по расписанию). Отработав, BKR Automate скажет "Completed" (или "Error", но не пугайтесь). Заново открыв книгу в Ресторере, проконтролируйте качество обработки. Неудавшиеся страницы "откатите" в исходное состояние (есть спец. кнопка в окошке инструментов) и обработайте вручную. Сохраните книгу. Выведите (экспортируйте) обработанные страницы через меню Publish в многостраничный файл TIFF G4, режим binary, разрешение не меняйте! Этап предобработки закончен. 3. КОДИРОВАНИЕ (СЖАТИЕ) В DJVU. - Теперь вам осталось закодировать страницы книги в djvu-файл. Пользуйтесь djvu-редактором от Lizardtech, таким как фриварная DjVu Solo 3.1, или DJVU Document Express какой-либо версии. (Djvu Solo 3.1 можно скачать по URL, найденным через www.filesearch.ru по ключевому слову "DjvuSolo") - Откройте в DjVu-редакторе файл TIFF G4, экспортированный из book restorer. - Cохраните его как DJVU, указав режим bitonal, разрешение (то значение, с каким вы сканировали книгу!), bundled (все страницы в одном файле). Наши поздравления, книга готова. Теперь поделитесь книгой с другими, закачав куда-нибудь на narod.ru и кинув ссылку, например, в fido7.ru.ocr Roman Efimov. Roman Efimov http://www.farlep.net/~roman