Roman Efimov.


 
     РЕКОМЕНДАЦИИ ПО ПЕРЕВОДУ КНИГ ИЗ БУМАГИ В DJVU-документ. 


     Этот документ составлен для начинающих в области сканирования 
   книг, поэтому рекомендованы легко доступные для освоения 
   специализированные программы.

 
     Следует выделить три этапа: 
 
    1. Сканирование 
    2. Предобработка (чистка, обрезка полей, и т.д.)
    3. Кодирование (сжатие) в djvu 
 
 
    1. СКАНИРОВАНИЕ 
     
   - В качестве программы сканирования рекомендуется ABBYY Finereader, 
   триальную версию программы можно скачать с www.abbyy.com. Триальная 
   версия  программы  не умеет сохранять распознанное, но это вам и не 
   нужно, так как вам нужны только функции сканирования. 
 
 
   - разберитесь с настройками сканирования в Finereader. Сканируйте с
   разрезанием  страниц (если весь разворот книги
   умещается на секле сканера),  обязательно в  режиме серого ( иначе вам
   придется  бороться  с  наплывающими  на  текст  черными  полосами и
   съевшимися   вблизи   переплета  буквами),  разрешение  300  дпи.
   Предварительно,  путем пробных сканов, установите (подгоните точно)
   отступы  и  размеры  сканируемой  области  такими,  чтобы поля были
   чистыми  (не было видно краев страниц, этим вы сэкономите время при
   постобработке).
 
     Примечание.  Если  не  жалко  времени,  сканируйте все в 600 дпи,
     потомки  вам  будут  благодарны, так как при 600 дпи не возникает
     никаких искажений при обработке и сжатии текста (все нюансы этого
     утвержденния будут поняты позже, по приобретению опыта).
 
   -  отканировав все страницы, проверьте, чтобы номера файлов страниц
   совпадали   с  их  реальными  номерами  (этим  вы  проконтролируете
   пропущенные  или  лишние  страницы).  Сохраните  их  в формате bmp,
   несжатый tiff (по клавише F12) в отдельный каталог.
 
   2. ПРЕДОБОРАБОТКА 
    
   -  Для  предобработки  сканов  перед  сжатием  в djvu рекомендуется 
   использовать   специализированную   программу  "Реставратор  книг", 
   ссылку можно найти через groups.google.com по слову restorerofbooks 
 
   -  запустив  book  restorer,  создайте  новую  книгу,  импортируйте 
   сканированные страницы. 
     
       
   - примерный сценарий обработки книги (на примере одной страницы): 
 
     -  выровняйте  освещенность  страницы  по  площади (меню lighting
     correction  в  tools), при на второй закладке измените дефолтное 
     значение 5 на значение 40.  
 
     - устраните наклон (меню deskew) 
 
     -  сделайте  обрезку  (меню  crop),  тут можно обширно поиграться 
     параметрами; при тщательной настройке ресторер корректно делает 
     обрезку полей и мусора. 
 
     -  сделайте  фильтрацию  (обработку)  текста  (меню filter), если 
     хотите. 
 
-     устраните  кривизну  строк  через  меню Geometrical Correction, тут 
      можно обширно поиграться параметрами. 
 
     -  сделайте  бинаризацию  (конвертацию  из серого в черно/белый), 
     поигравшись с настройками в инструменте binarization, и пользуясь 
     предпросмотром. 
 
     - устраните точечный мусор (меню despekle) 
 
     - в принципе, все. Но вы можете использовать другие инструменты,
     которые сочтете необходимыми.
 
      Примечание.  Некоторые  инструменты  не  работают на черно-белых 
      изображениях,  поэтому  бинаризацию  делайте на последнем этапе, 
      перед  despekle.  Если  вдруг  у  вас исходные сканы оказались в 
      черно-белом  варианте,  то  перевести  их в grayscale через меню 
      Сolor Conversion. 
 
      Как  только на примере нескольких страниц вы найдете оптимальный
      результат, запишите скрипт с выбранными вами операциями, и дайте
      ему  имя.  "Откатите"  обработанные  вами  страницы  в  исходное
      (необработанное) состояние (для этого есть спец. кнопка в окошке
      инструментов). Сохраните книгу.
 
       
      Через  пункт  меню  Automation  вызовите  утилиту  BKR Automate,
      укажите  имя  книги, созданный вами скрипт, диапазон страниц, и
      время начала выполнения (сразу или по расписанию).
  
      Отработав,  BKR  Automate скажет "Completed" (или "Error", но не 
      пугайтесь). 
         
      Заново  открыв  книгу  в  Ресторере,  проконтролируйте  качество
      обработки.  Неудавшиеся страницы "откатите" в исходное состояние
      (есть спец. кнопка в окошке инструментов) и обработайте вручную.
      Сохраните  книгу. Выведите (экспортируйте) обработанные страницы
      через меню Publish в многостраничный файл TIFF G4, режим binary,
      разрешение не меняйте!
 
      Этап предобработки закончен. 
 
  3. КОДИРОВАНИЕ (СЖАТИЕ) В DJVU. 
 
       
   -  Теперь вам осталось закодировать страницы книги  в djvu-файл. 
     
      Пользуйтесь  djvu-редактором  от Lizardtech, таким как фриварная 
      DjVu  Solo  3.1,  или  DJVU  Document Express какой-либо версии. 
      (Djvu   Solo   3.1   можно   скачать  по  URL,  найденным  через 
      www.filesearch.ru по ключевому слову "DjvuSolo") 
 
    -  Откройте в DjVu-редакторе файл TIFF G4, экспортированный из book 
      restorer. 
      
   -   Cохраните  его  как  DJVU,  указав режим bitonal, разрешение (то 
      значение,  с каким вы сканировали книгу!), bundled (все страницы 
      в одном файле). 
        
      Наши поздравления, книга готова. 
 
      Теперь  поделитесь  книгой  с  другими,  закачав  куда-нибудь на 
      narod.ru и кинув ссылку, например, в fido7.ru.ocr  


Roman Efimov.

   Roman Efimov
   http://www.farlep.net/~roman
Hosted by uCoz