Утилита cvthtml из пакета DjvuOCR v2.2 beta

Вернуться к разделу "Программа DjvuOCR".

Утилита cvthtml из пакета DjvuOCR v2.2 beta

Version 2.0

- добавлена опция '-j'

- улучшена обработка слов с переносом в конце строки

Version 1.0

У меня возникла следующая идея.

Я пользуюсь dtSearch для создания CD с полнотекстовый search. Так как DJVU не обрабатываются dtSearch-ом, я сделал утилиту, которая из результата FRFGrab.EXE (т.е. из OCR layer file) делает HTML-версию распознанного текста. Этот HTML-текст можно хранить в ZIP-файле вместе с книгой (dtSearch ищет в ZIP-файлах). Так можно организовать большую колекцию DJVU и полнотекстовый поиск. Когда dtSearch найдет что-то в каком-нибудь ZIP, то надо загрузить соответствующий DJVU-файл при соответствующей конвенции файлових имен, например:

myfile.djvu
myfile.djvu.zip

Специально используя dtSearch, можно переименоват ZIP файл на что-то другое, dtSearch сам узнает что ето ZIP файл и надо обработат его.

Использование:

cvthtml [-j] <in_file> <out_file>

-j - указывает объединение строк, которые похожи на часть из одного параграфа. (эта опция убирает
лишние CR/LF в конце строк, не заканчивающихся на знак препинания)

in_file - текстовый файл, результат FRFGrab.EXE или извлекаемый из DJVU файла с OCR через команду:

djvused -e output-txt Myfile.djvu > ocrfile.txt

тогда надо обязательно посмотреть в конце файла ocrfile.txt, все ли в порядке и нет ли сообщения об
ошибке djvused.exe

out_file - результат в форме HTML файла в UTF8 encoding. Файл можно прямо просматривать в браузере.

Автор: gencho. djvuocr [почтознак] mail2world.com

Подготовил: monday2000.

9 марта 2007 г.

E-Mail (monday2000 [at] yandex.ru)