Вернуться к разделу "Программа DjvuOCR".
- добавлена опция '-j'
- улучшена обработка слов с переносом в конце строки
У меня возникла следующая идея.
Я пользуюсь dtSearch для создания CD с полнотекстовый search. Так как DJVU не обрабатываются dtSearch-ом, я сделал утилиту, которая из результата FRFGrab.EXE (т.е. из OCR layer file) делает HTML-версию распознанного текста. Этот HTML-текст можно хранить в ZIP-файле вместе с книгой (dtSearch ищет в ZIP-файлах). Так можно организовать большую колекцию DJVU и полнотекстовый поиск. Когда dtSearch найдет что-то в каком-нибудь ZIP, то надо загрузить соответствующий DJVU-файл при соответствующей конвенции файлових имен, например:
myfile.djvu myfile.djvu.zip |
Специально используя dtSearch, можно переименоват ZIP файл на что-то другое, dtSearch сам узнает что ето ZIP файл и надо обработат его.
cvthtml [-j] <in_file> <out_file> |
-j
- указывает объединение строк, которые похожи на
часть из одного параграфа. (эта опция убирает
лишние CR/LF в конце строк, не заканчивающихся на
знак препинания)
in_file - текстовый файл, результат FRFGrab.EXE или извлекаемый из DJVU файла с OCR через команду:
djvused -e output-txt Myfile.djvu > ocrfile.txt |
тогда надо обязательно посмотреть в конце файла
ocrfile.txt, все ли в порядке и нет ли сообщения об
ошибке djvused.exe
out_file - результат в форме HTML файла в UTF8 encoding. Файл можно прямо просматривать в браузере.
Автор: gencho. djvuocr [почтознак] mail2world.com
Подготовил: monday2000.
9 марта 2007 г.
E-Mail (monday2000 [at] yandex.ru)