Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".


Рекомендации по сканированию книг от botolph


1-Scanning readme

Итак, Вам хочется отсканировать книгу/статью и после того хранить её в удобной для Вас форме - pdf, djvu,... multipage-tiff, ...

Естественно, хочется как можно быстрее отсканировать, но получить максимально возможное при этом качество...

Самое разумное - прочитать ВСЕ readme в данной статье последовательно - be informed... Дело в том, что тут завязаны многие нюансы, которые следует учесть ЗАРАНЕЕ - до этапа сканирования следует осознать, в какой промежуточной форме и с каким качеством сохранять ПРОМЕЖУТОЧНЫЕ результаты - и что хочется получить в конце.

Разумеется, они отражают только МОЙ большой, но не безграничный опыт и сообразительность - прошу прощения, если где-то и не буду прав.

Прежде всего - о выборе сканера - смотри 1a-WhatScanner.readme.

Затем - о промежуточном формате, в котором сохранять файл, и конечных форматах - 2-FileFormat.readme.

3-Obrabotka.readme - здесь о том, как можно улучшить качество сканированного (промежуточного) изображения. Чистка чёрных полос в разворотах, разрезание сканированного разворота на 2 страницы и пр.

4-Сompressing-transforming.readme - в какой формат и как потом к конце концов преобразовать сканированные графические файлы?

Я постарался дать основные идеи:

- может быть тривиальные большинству опытных.
- может быть полезные начинающим.
- и выложил простейшие (свободные!) утилиты для переработки и полировки результата - конечно, не сравнимые с творчеством профи, - ну што могём. :-)


1a-WhatScanner readme

Если Вы не требуете какой-то суперреалистичной передачи тонких оттенков цветов - и сканировать будете в black-white или grayscale, то естественный вопрос - какой сканер при этом самый быстрый?

Если позволить себе потратить не более 200 $, то ОЧЕНЬ разумный выбор - сканеры серии Epson Perfection. Там сейчас много моделей, я года 2 назад работал на одном из первых - он давал для b/w 300 dpi примерно 20 сек. на скан.

Сейчас у меня Epson Perfection 1660 Photo - на том же разрешении легко 4 скана в минуту, причем если в паре с ACDSee работать - очень удобно настроить их совместную работу - сразу будет виден и результат и на каждый скан надо жать ровно 1 кнопку...

Если даже выбираете grayscale (8bit), то тоже довольно быстро. 600 dpi будет раза в 2 медленнее (естественно).

Только полдня вначале пришлось разбираться с настройками самого драйвера сканера и ACDSee - а потом как по маслу!

По моему опыту - что-то другие фирмы (даже вроде солидные типа Hewlett Packard) скоростью не увлекаются - и других недорогих быстрых сканеров не встречал... Большинство спецификаций сканеров либо умалчивает о реальном быстродействии - или говорят о raw-режиме - видимо имея в виду "продварительный просмотр" низкого разрешения. Либо хвастаются идеальной цветопередачей - умалчивая о времени... В различных тестовых сравнениях сканеров в Интернете тоже не очень тут много обращают внимания - в основном копаясь в той же цветопередаче - тут, кстати, честно отмечу - якобы профессионалы замечают, что мой любимый Epson Perfection не самый идеальный - а я не замечал, вроде всё ОК. В общем, по скорости - мой выбор - Epson Perfection!

Его и рекомендую. Заметим, что многие дешевые сканеры китайских брэндов опасны ещё тем, что дают разрешение и качество намного НИЖЕ заявляемых - сам видел такой - так результат при установке 300 dpi выглядит, как будто там 100 или ниже, регулировки порога между чёрным/белым нет... И прочие ужасы!

Люди писали о "потоковых сканерах" - типа по 1 сек на скан с автоматической загрузкой страниц А4 (книжки в разворот не пойдут!) - ну, стоимость таких монстров даже не берусь предсказать.


2-FileFormat readme

Тут, прежде всего, обговорим три вещи:

1) Вы хотите сделать МНОГО страниц и хорошего качества, или побыстрее парочку страниц - и забыть об этом деле?

Если второе - я вряд ли помогу. Ну, можете в этом случае попробовать напрямую через любую программу, понимающую сканер с автоматической настройкой - и не удивляйтесь, если это будет по 5 минут на страницу!

Если же ваша работа объёмна - то потратив время, чтобы разобраться разок в основах и общих принципах - получите очень большой выигрыш в скорости и скорее всего в качестве.

2) На каждом шагу придётся выбирать между автоматизацией/ручной работой или между скоростью/качеством. Я стараюсь идти в обоих случаях первой дорогой. Как правило, и качество не страдает.

3) я НИЧЕГО не говорю о РАСПОЗНАВАНИИ сканированного текста. Мой идеал - графический формат, не текстовый. Вы должны понимать разницу. И знать, что такое "графический файл" и как он отличается от "текстового" (включая продукты таких программ, как Word)

========================================================

Итак, о конечных и промежуточных форматах.

Конечным форматом может быть в настоящее время любой Вам подходящий - из тех, что достаточно компактно хранят сканированные многостраничные графические изображения и удобно их показывают/печатают: pdf, djv, multipage tiff,...

А вот ПРОМЕЖУТОЧНЫЙ формат - который можно почистить-подрезать-(далее по вкусу) лучше выбрать другой - хотя и (полный) Adobe Acrobat и DJVu Solo или DJVu Editor позволяют НАПРЯМУЮ сканировать многостраничный документ прямо не выходя из указанных программ (см. их меню "File -> Acquire") - но вот потом... As is!

Кстати, можно терзаться мыслью - какой из указанных форматов "лучше"? Это я не случайто в кавычках слово поставил!

Во-первых, дело не только какой "лучше жмёт" или другой параметр на выбор, тут, по моему опыту, надо осознать, что современное железо действительно стоит НАМНОГО дешевле, чем Ваше время - и купив большой винчестер или пишущий быстрый CD-дисковод, Вы сэкономите кучу сил, не особо концентрируясь на рекордах сжатия - выбирайте наиболее удобный - ну, может, Вам хочется, чтоб качество показываемой страницы на экране было максимальным, или чтоб листать побыстрее.

Во-вторых - ЛЮБОЙ формат МОЖНО преобразовать в ЛЮБОЙ! Об этом я собираюсь выкладывать информацию в разделе transform-any2any (пока соотв. readme - в стадии написания...). Правда, качество может и пострадать - если не разбираться долго и упорно с настройками...

Опыт подсказывает следующее: сканируйте каждую страницу в отдельный файл в формате TIFF (расширение tif) - потом будет удобнее и почистить от чёрных полос в разворотах и порезать, если надо, разворот на отдельные страницы и преобразовать/склеить в один файл требуемого Вам конечного формата.

Отступление в сторону - ликбез по графическим файлам - если Вы СОВСЕМ не понимаете, в чём разница между *.bmp *.tif *.gif *.jpg - смотрите файл 2a-GraphicFileFormats.readme.

Наконец, о трудоёмкости процесса. Здесь я пытаюсь описать процедуры, позволяющие минимизировать затраты ручного труда и процессы "очистки" и склейки/преобразования в конечный формат - тут многое уже (полу)автоматизировано, особенно на большом числе страниц легко сэкономить много времени.

==============================================

Современные сканеры позволяют настроить многие параметры выходного файла, и если Вы можете это сделать - рекомендую для случая, когда сканируется текст и графики-штриховые рисунки, выбрать выходной формат *.tif, чёрно-белый, со сжатием "CCITT Group4" (или по-другому "faxg4"). Если иногда требуется вводить имя файла для каждого получаемого файла - попробуйте многостраничный *.tif - подробнее см. 2a-GraphicFileFormats.readme.

Если надо на некоторых страницах точно передать градации серого - придётся менять настройки на greyscale и сжатие выбирать ДРУГОЕ - LZW, если есть. Но тут и чистить эти страницы, скорее всего, придётся индивидуально...

=============================================

По опыту, под Windows наименее хлопотно сканировать, используя популярную программу ACDSee - она и это умеет! Иногда, правда (со старыми или плохими китайскими сканерами и глючными драйверами таковых) не получается... ну методом тыка - тут как повезёт...

Сканировать через ACDSee следует так - в меню File есть Acquire setup. Введите тип файла TIFF и в опциях - сжатие "CCITT Group4", а в окошке заготовки имени файла сделайте ### - это означает, что автоматически будут генерироваться файлы 001.tif 002.tif 003.tif ... 010.tif ... После чего выбираете Acquire - запускается интерфейс сканера - тут всё зависит от модели и извращённости писавших таковой.

Мне очень понравился интерфейс Epson Perfection (и в этом он оказался намного лучше Hewlett-Packard - у тех явно непродумано): вы запускаете один раз этот интерфейс, настраиваете разрешение 300 dpi, текст/штрих. рисунок (это у них означает, что будет 1-битовый чёрно-белый выход, не grayscale), после предварительного сканирования устанавливаете границы поля сканирования и пороговое значение между чёрным и белым - тут опыт быстро подскажет - можно, кстати, настройки сохранить! После чего, не выходя из этого интерфейса кладёте страницу (разворот книги) на сканер и жмёте ввод - изображение будет послано в ACDSee, и та её примет, сожмёт в TIFF и автоматом пронумерует каждую страницу, а Вам остаётся только класть очередную страницу на сканер и жать ввод.

Кончили серию страниц - Esc. Приступайте к обработке полученных файлов - читайте 3-Obrabotka.readme.

Если Вам не повезло, и надо МНОГО сканировать, а сканер МЕ-Е-ЕДЛЕННЫЙ - попробуйте, на каком разрешении скорость повышается. Был у меня недавно опыт с одним Hewlett-Packard - так там 300 dpi, как ни крути, требовало почти минуту на страницу. А при 150 дело шло в 2 раза быстрее! Даже если требовать не чёрно-белый результат, а grayscale. Выкрутился так - сканировал 150 dpi grayscale. Как ни странно (кто не верит - пусть проверит!), даже маленькие индексы в формулах вроде нормально гляделись, и при печати той же любимой ACDSee, приличные были - за счёт сглаживания - видимо, она (ACDSee) тут хорошо написана! Правда, размерчики были у файлов - 1 стр. под 400 Кбайт... Но скорость сканирования - в 2 раза выше!

И что потом? Потом полученные файлы (а было их сделано около 15 тысяч!) я с помощью Corel Draw 10 (можно и Adobe Photoshop, но у меня не пошёл чего-то) в batch-режиме с помощью скрипта поднимал разрешение до 300 (Resample с anti-aliassing - т.е. вроде сглаживание), делал Smoothing и иногда гамма-корекцию (если светловатые тонкие буквы) и затем в чёрно-белый с должным порогом. Получалось почти (ну, не всегда) неотличимо от того, что бы получилось при 300 dpi black/white! Заодно прочищал чёрные полосы в серёдке разворота.

Конечно, тут тоже были немалые затраты ручного труда - но и выигрыш был - за короткое время отсканировал много, а потом время разборки с результатом было некритично - а, кстати, и печатать вполне прилично можно было и не перерабатывая. После переработки объём, занимаемый сканированной книгой, падал раза в 4 - иногда в 10. :-) Возможно, это и для Вас будет намёком - как исхитряться.

Одно можно четко посоветовать - для данной книги постарайтесь, чтобы ВСЕ страницы (развороты если влезают в сканер) были ОДИНАКОВО расположены при сканировании - т.е. не плавали влево-вправо-вверх-вниз. Тогда потом (см. последующие readme) намного легче подстроить программы подчистки изображения.


2a-GraphicFileFormats readme

Графические файлы бывают в очень разных форматах.

Я кратко поясню здесь то, что существенно для нужд сканирования. Не более!

1) Графические файлы по самой грубой классификации бывают двух типов:

- с потерей качества (lossy) для повышения коэффициента сжатия.
- и без потери качества (lossless).

Типичный представитель первого типа - формат *.jpg (JPEG). Он просто замечателен для ЦВЕТНЫХ изображений и даёт малый размер файла при довольно (на мой взгляд непрофессионала) высоком качестве цветопередачи. Но это - за счет некоторой "размытости" изображения, несущественной при ПЛАВНЫХ переходах. Для чёрно-БЕЛЫХ изображений с чёткими мелкими деталями - а именно такие, как правило, и нужны при сканировании книжек - даёт очень плохое размытое изображение! НИ В КОЕМ СЛУЧАЕ не применяйте для чёрно-белого формата!

Если вы сканируете в чёрно-белом режиме (см. ниже) - советую TIFF с сжатием "CCITT Group4" (или по-другому "faxg4") - совершенно без потерь качества и с хорошим сжатием (от 20 до 50 килобайт на стр.) Это как раз для нас - типичный представитель второй группы - lossless compression.

И есть форматы вообще без сжатия - таковы *.bmp (как правило, иногда это не так, но скорее всего). Вряд ли они разумны - расходуется до 1 мегабайта на стр. при 300 dpi и чёрно-белом изображении - не говоря о 600 и градациях серого... Про этот и др. устаревшие форматы типа *.pcx говорить не будем - ничем особо хорошим они не отличаются.

2) Второй существенный параметр, по которому следует различать графические файлы - количество информации об одном пикселе (точке) изображения - бывают 1-битовый (соответственно могут различить только белый и чёрный цвет точки) или скажем 8-битовые (соотв. 256 градаций серых оттенков от чисто чёрного до чисто белого). Далее идут форматы, отводящие по несколько байт на пиксел - они соответственно идут на передачу цвета. Для нужд сканирования - за особым случаем, когда надо сканировать цветные иллюстрации - мой опыт подсказывает, что максимум, что МОЖЕТ БЫТЬ НАДО - чисто чёрно-белый формат (1-битовый) для текста и графиков-чертежей и изредка 8-битовый для чёрно-белых (точнее, в оттенках серого) фотографий. Заметим, что указанный выше TIFF с сжатием "CCITT Group4" - ТОЛЬКО для 1-битовых чёрно-белых (по определению). Это опять-таки не означает, что TIFF (что расшифровывается как Tagged Image File Format) подходит только для чёрно-белых форматов - см. ниже.

3) Третий существенный параметр - "разрешение", т.е. количество точек на дюйм ("dots per inch" = "dpi") которое сканер различает (генерирует) при проходе по странице. Иногда (а именно в TIFF практически всегда!) этот параметр ХРАНИТСЯ в самом файле - и может НЕ СОВПАДАТЬ с реальной по какой-либо причине типа Вашей ошибке при установке параметров сканирования. Иногда этот параметр чисто формален - особенно при выставлении файла в Интернет - тут это просто играет роль при определении размера (ширины и высоты изображения в пикселах).

С (моей :-) практической точки зрения для сканирования текста/формул/графиков/штриховых рисунков 300 dpi - самое то. Эстеты говорят, что 600 - ну, намного лучше... Попробуйте сами - если времени не жалко - при сканировании соответственно вам придётся ждать у сканера в 2 раза дольше! О размере файла умолчим - да и при сжатии это не столь радикальная разница.

==============================

Теперь о деталях и некоторых нюансах. И здесь верны (ну, почти..) два принципа:

1) Все современные форматы - гибки и перестраиваемы. Тот же TIFF на самом деле внутри может вполне сжимать изображение по алгоритму JPEG - и тогда практически даёт то же, что и *.jpg

Следует иметь в виду, что в одном файле может быть НЕ ОДНА, А МНОГО страниц! Особенно в *.tif! Как узнать? Ну, например, популярная - и я её рекомендую - универсальная гляделка графических файлов ACDSee это выводит в строке информации о файле - типа 117@2500x3647 т.е. 117 страниц в файле при размере каждой в 2500 на 3647 пиксела. В этой гляделке на след. страницу в данном файле легко перейти, нажав Shift-PageDown. Можно получить информацию о типе сжатия и др., запросив "File info" в меню - или воспользовавшись для *.tif утилитой tiffinfo.exe.

2) В общем, любой формат легко преобразовать в любой - причем "пакетно", т.е. много-много файлов за раз - в той же ACDSee это стандартная функция - доступна через меню. Не забудьте установить способ сжатия - если преобразуете в TIFF или качество (количество теряемой информации) при преобразовании в jpg!

Так что, если Ваш сканер выдает только *.bmp - не стоит отчаиваться - это легко ужать и преобразовать в *.tif - см. выше! Далее можете обрабатывать полученные файлы способами и утилитами, описанными в других readme.

Если Ваш сканер выдает многостраничный *.tif (чтобы добиться минимального числа нажатий на клавиши для каждой страницы - я такое встречал в ранних версиях Epson perfection) - тоже не проблема - многостраничные *.tif можно быстро и без хлопот разбивать на отдельные страницы - см. описание утилит для работы с *.tif. Можно и наоборот - склеивать одностраничные *.tif в один многостраничный - см. там же.

Короче - выбираете описанные выше три основных параметра - название формата не играет большой роли.

================================================

Нюансы формата TIFF:

1) Возможна многостраничность.

2) Различные методы сжатия. Из них отбросим метод JPEG - он с потерей качества. Остаются - из наиболее часто встречающихся:

а) "CCITT Group4" (или по-другому "faxg4") - ТОЛЬКО для чёрно-белых! Другие сжимать не может. Если вы по недосмотру преобразуете какой-то другой формат в TIFF с этим сжатием - будет чёрно-белый с "dithering" - т.е. градации серого будут передаваться мелкими точками различной величины и частоты расположения. Хорошо видно при большом увеличении - и иногда очень неплохо смотрится даже для форографий.

б) "CCITT Group3" (или по-другому "faxg3") - по моему, просто устарел и оставлен для совметимости. Существенно хуже сжимает. Тоже только для чёрно-белых.

в) "run-length" - сжимает плохо.

г) LZW (Lempel-Ziv-Welsh)-сжатие. Подходит и для чёрно белых (уступая при этом "CCITT Group4" процентов 30) и для grayscale - но поскольку владельцы патента требуют деньги за его поддержку - сейчас западные программисты его избегают. Российские, понятно, до таких "благ цивилизации" не доросли - используют, он же описан...

д) "без сжатия" - ну, ясно и без комментариев...

Так что не удивляйтесь, если одно и то же изображение при одном и том же расширении *.tif может иметь радикально различающийся размер.

Ещё один нюанс TIFF: поскольку это Tagged Image File Format, там бывают разные "тэги". нестандартные, которые, к примеру, несут информацию о программе-создателе данного файла - и некоторые другие программы считают такое (наверно, зря :-) недопустимым, ругаются, не обрабатывают и т.п. Кроме того, столкнулся с тем, что та же популярная на российских просторах довольно мощная Corel Draw ещё и корёжит информацию о разрешении - поработал в этой программе с файлом, почистил - а он ЯКОБЫ стал не 300 dpi, а 95 (разрешение экрана), в остальном смотрится как конфетка - ну что тут поделаешь, и на старуху бывает проруха... И это потом больно бьёт, когда работает программа типа tiff2ps - она честно прочитает эту информацию о файле, и такое разрешение и сделает - точнее, буквы станут огро-о-омными, и на странице А4 уместится еле 1/5 исходного изображения... Можно насильно устанавливать разрешение в таком случае.

Я включил разные утилиты для работы с TIFF-форматом. Они скомпилированы из свободной билиотеки libtiff - пользуйтесь на здоровье!


3-Obrabotka readme

Если Вы решили следовать моим скромным советам и выбрали в качестве формата (первоначального) сканированных файлов формат tif - для обработки есть масса утилит.

1) Утилиты, скомпилированные из свободной библиотеки libtiff (version 3.5.7 - август 2003) - режут многостраничный ТИФ на одностраничные и др - см в директории TIFF-tools.

2) Написанная на их основе cleantif.exe (писал не я ...) - в поддиректории cleantif.

Данная программка, применённая к ОДНОМУ одностраничному b/w или grayscale ТИФу, позволит почти полностью удалить чёрную полосу - где скажете, или где сама найдёт. Описание там же.

Все вышеуказанные программы настроены на обработку ОДНОГО файла. Что делать для нескольких СОТЕН? Ответ прост - ДОС/ВИНДОУЗ умеет запускать ЦИКЛЫ - пример в директории cleantif - файл ca.bat поочередно обработает ВСЕ *.tif в данной директории (т.е. где Вы его запустите), настройки очистки - во вспомогательном файле cl.bat, который и вызывается ca.bat для обработки каждого конкретного файла. Почищенные файлы будут в поддиректории (автоматически созданной) "cleaned".

Более подробно о разных пакетных обработках этим способом - напишу чуть позже в директории bat-awk-utils В частности - как бороться с тем, что цикл for (до сих пор - ПОЗОР Биллу Гейтсу & Co!!!) даёт в качестве аргументов в цикле по именам файла лишь их КОРОТКИЕ имена. Ну, самое простое - не делайте длинных :-) Достаточно 1.tif, 2.tif... Впрочем, эта проблема уже решена! (попозже опишу).

3) В одном из форумов недавно выставлена свободная и КРУТАЯ программа под виндоуз "Skan Kromsator". С разрешения автора здесь - линк на его страницу: http://bolega.hotmail.ru/. Краткое описание - в файле ScanKromsator. Возможности - совершенно фантастические!


4-Compressing-transforming readme

Здесь я описываю, как потом склеить полученные сотни одностраничных ТИФФов в один файл и преобразовать в тот формат (pdf, djv...), который Вам по душе.

1) Если речь идет о djv - можно воспользоваться утилитами из свободной библиотеки djvlibre - ну, об этом попозже... А самое простое - доверьтесь профессионалам - пошлите на бесплатную службу http://any2djvu.djvuzone.org/. Описание деталей (спасибо castleofmusic) - в разделе any2djvu.

2) pdf - тут у меня опыт имеется... есть отличная быстрая программка tiff2pdf - вот только демо-версия позволяет за один раз переводить в ПДФ не более 150 страниц... (Ау, кто бы взломал :-) - см. tiff2pdfWin32.zip.

Предпочитающим законно-свободные программки - в TIFF-tools есть tiff2ps.exe - тут без ограничений - но в Postscript. После чего - если Вы имеете полный Acrobat с Distiller'ом - переводите указанным Distiller'ом в ПДФ - кстати ужатие небольшое по сравнению с результатом работы tiff2ps.exe, если версия Acrobat до 6 - а вот после (сам пока не пробовал - но видел результат) ещё сожмёт раза в 3, но будет читаема только Acrobat 5 или 6 (и медленнее...).

Если же у Вас такового дорогого софта нет - есть свободный ghostscript - тут придётся подробнее объяснять... Чуть позже.

===================

ВАЖНОЕ ОБЩЕЕ ЗАМЕЧАНИЕ - об именах ТИФ-файлов. Если Вы их нумеровали 001.tif, 002.tif, 003.tif, ...- молодцы, все указанные выше программы их упорядочат ПРАВИЛЬНО - а вот если 1.tif, 2.tif, .., 10.tif, ... - надо прибавить впереди должное количество нулей. На то - простейший 00.bat в данной директории - он дотянет 1.tif до 001.tif и 10.tif до 010.tif соответственно. Если страниц более 999 и надо побольше нулей - просто добавьте ещё одну строку (ту же самую, что и первые две) в 00.bat

==============

Хватит для начала - подробности позже :-)


any2djvu

Краткое введение в дежавюку

Формат дежавю (djvu) предназначен для компактного хранения сосканированных книг (изображений страниц). Он был изначально разработан в AT&T. Программы для работы с этим форматом можно получить по адресам www.djvu.com, www.djvuzone.org, www.lizardtech.com, djvu.sf.net.

Лучше всего djvu работает для чёрно-белых страниц, сосканированных в разрешении 300 dpi. По сравнению с PDF, обычно достигается сжатие в 3-6 раз. (Зависит от вида PDF файла.) Некоторые PDF файлы меньше, чем djvu файлы, но это бывает редко. Если документ был исходно сделан с помощью TeX, то перевод в дежавю неоправдан (оптимальный размер получается в формате Postscript.gz).

Существует "дежавюка" - бесплатная служба перевода документов из форматов GIF, TIFF, PDF, PS в формат дежавю. Эта служба находится на сервере http://any2djvu.djvuzone.org/.  Можно закачать на сервер файл, выбрать разные опции (например, делать или не делать распознавание текста - OCR - которое пока работает только для латинских букв), и через некоторое время получить файл в формате дежавю.

Чтобы закачать книгу, состоящую из отдельных файлов для каждой страницы, лучше всего сделать ZIP файл со всеми страницами, и позаботиться об их алфавитном упорядочении. Например, файлы могут называться page001.gif, page002.gif, ...

Имена закачиваемых файлов лучше делать попроще, без пробелов, скобок, апострофов и так далее. А то иногда сервер сбоит и не обрабатывает файл.

Опции дежавюки: либо обрабатывать "PS/PDF file" (тогда в djvu-файле сохраняются все hyperlinks и цвет!), либо "scanned b/w image 200-400 dpi". В последнем случае есть глюк: если дать pdf-файл и заказать его как "scanned b/w image 200-400 dpi", то делается только первые 82 страницы (а иногда только первые 30 страниц, смотря по разрешению картинки - видимо, какая-то ошибка с памятью). Приходится резать pdf-файл на куски перед закачкой в дежавюку. Однако этот режим иногда бывает необходим (напр. если pdf-файл сосканирован в цвете, то djvu получается очень большого размера, поэтому его надо обрабатывать как image. Тогда теряются ссылки и цвет.) Лучше всего давать сосканированные чёрно-белые изображения, а не greyscale.

OCR лучше для русских текстов не запрашивать, получается ерунда (типа Bohhbmrbh pohlhlilih).

Разрешение больше 300 dpi лучше не использовать - это даёт неоптимальное сжатие в дежавю.

Подробности закачки файлов на дежавюку

Файлы закачиваются двумя способами: либо через browser file upload, либо вы даёте какой-то доступный адрес URL, например http://какой-то.хост/файл.pdf, на котором лежит ваш файл. Файлы допускаются форматов Postscript (.ps, .ps.gz), PDF, TIFF (не все варианты этого формата), bmp, jpeg, zip.

Если при закачке файла возникли проблемы, то файл будет потерян и закачивать придётся заново (докачки нет). Если пытаться закачать файл с тем же именем ещё раз, то дежавюка переименовывает его в file.1, затем file.2 и т.д. При этом в случае закачки через URL частично закачанный файл остаётся на дежавюке в каталоге raw/. Это приводит к проблемам, если закачивать файл с названием index.html - он забивает каталог raw/ и не даёт его просматривать. Лечится это просто: надо загрузить в дежавюку ещё один файл с именем index.html или index.htm, причём загружать надо обязательно через доступный адрес URL. Тогда старый файл index.html будет переименован в index.html.1 и файлы каталога raw/ будут опять видны.

Если нужно просто залить готовый дежавю-файл в дежавюку для других людей, укажите "djvu document for OCR", получите новую форму, и в ней поставьте пометку на поле "No OCR". Файл просто поступит в дежавюку и будет без изменений скопирован в каталог /djvu/.

Некоторые файлы пришлось разрезать на части по техническим причинам (дежавюка не может обрабатывать более 82 страниц в режиме black/white scanned image).

Автор: botolph


Подготовил: monday2000

7 апреля 2006 г.

Hosted by uCoz