Вернуться к разделу "Программа DjvuOCR".


Утилита cvthtml из пакета DjvuOCR v2.2 beta


Version 2.0

- добавлена опция '-j'

- улучшена обработка слов с переносом в конце строки


Version 1.0

У меня возникла следующая идея.

Я пользуюсь dtSearch для создания CD с полнотекстовый search. Так как DJVU не обрабатываются dtSearch-ом, я сделал утилиту, которая из результата FRFGrab.EXE (т.е. из OCR layer file) делает HTML-версию распознанного текста. Этот HTML-текст можно хранить в ZIP-файле вместе с книгой (dtSearch ищет в ZIP-файлах). Так можно организовать большую колекцию DJVU и полнотекстовый поиск. Когда dtSearch найдет что-то в каком-нибудь ZIP, то надо загрузить соответствующий DJVU-файл при соответствующей конвенции файлових имен, например:

myfile.djvu
myfile.djvu.zip

Специально используя dtSearch, можно переименоват ZIP файл на что-то другое, dtSearch сам узнает что ето ZIP файл и надо обработат его.

Использование:

cvthtml [-j] <in_file> <out_file>

    -j          - указывает объединение строк, которые похожи на часть из одного параграфа. (эта опция убирает
                  лишние CR/LF в конце строк, не заканчивающихся на знак препинания)

   in_file - текстовый файл, результат FRFGrab.EXE или извлекаемый из DJVU файла с OCR через команду:

djvused -e output-txt Myfile.djvu > ocrfile.txt

                  тогда надо обязательно посмотреть в конце файла ocrfile.txt, все ли в порядке и нет ли сообщения об
                  ошибке djvused.exe

    out_file - результат в форме HTML файла в UTF8 encoding. Файл можно прямо просматривать в браузере.


Автор: gencho.  djvuocr [почтознак] mail2world.com

Подготовил: monday2000.

9 марта 2007 г.

E-Mail  (monday2000 [at] yandex.ru)

Hosted by uCoz