Вернуться к статье "Создание книг в электронном виде из бумажных книг".

Создание электронных книг в формате DjVu

Примечание: Эта статья уже сильно устарела, т.к. после её написания появилось Пособие по Кромсатору, значительно облегчающее процесс создания электронных DjVu-книг.

Рекомендация использовать ABBYY FineReader v7.0 PE теперь уже считается неправильной - т.к. он корёжит строки текста при сканировании. Взамен рекомендуется Irfan View.

Эта статья оставлена только лишь "для истории". Прочитайте лучше Как самому сделать DjVu-книгу (Краткая схема).

Эта небольшая статья предназначена для тех, у кого есть желание самому делать электронные версии бумажных книг и потом выкладывать их в Интернет в общий доступ. Статья не претендует на истину в последней инстанции и призвана обрисовать весь процесс лишь в самых общих чертах. Я постараюсь описать весь этот процесс от А до Я во всех подробностях - начиная от сканирования бумажной книги и заканчивая выкладыванием готовой книги в Интернет. Я постоянно думаю над усовершенствованием и упрощением этой технологии.

Сразу скажу, что создавать электронные версии бумажных книг - это не просто, а очень просто и легко. Самое трудное в этом деле - отсканировать бумажную книгу. Как только Вы получаете полный комплект сканов книги - считайте, что книга уже почти готова. Всё, что нужно от Вас для создания электронной книги и выкладывания её в Интернет - это компьютер, сканер, модемный доступ в Интернет и немного Вашего терпения и желания. Ну, и конечно, исходная бумажная книга. Всё остальное - описание технологии книгоделания, ссылки на все необходимые программы - есть здесь, на этом сайте. Кстати, выложить готовую книгу в Интернет лучше всего по специальному тарифу у местного провайдера - "оплата только за трафик". По этому тарифу исходящий трафик - то есть закачка книги на сайт - не оплачивается.

Для создания (и чтения) электронных DjVu-книг Вам потребуется скачать следующий абсолютный минимум софта с моего сайта:

  1. DjVu Solo v3.1 NonComm  (2,12 МБ)
  2. WinDjView-0.3.5  (484 КБ)

Итого:  ~ 2,6 МБ

Но лучше взамен скачать оттуда же такой набор софта:

  1. Document Express Enterprise with DjVu 5.1.0 build 946 (Light Edition)  (18,7 МБ)
  2. DjvuOCR v2.0 pre  (1,16 МБ)
  3. Document Express Editor v5.0.0 Build 16 (без OCR и справки)  (1,72 МБ)
  4. ScanKromsator v5.51b Full  (2,06 МБ)
  5. IrfanView v3.97  (900 КБ)
  6. WinDjView-0.3.5  (484 КБ)

Итого:  ~ 25 МБ

Второй комплект софта (в отличие от первого) обеспечит надёжность, удобство в работе, хорошее качество будущей DjVu-книги. Я рекомендую не пожалеть денег и скачать именно второй комплект софта, а не первый - так Вы здорово облегчите себе жизнь.

(Подробнее см. Итоги по DjVu-программам)

Кроме того, Вам ещё потребуется купить на местном рынке такие программы:

  1. ABBYY FineReader v7.0 PE
  2. Adobe PhotoShop v5.0
  3. ACDSee v3.0

По вопросам "книгоделания" пишите мне на мой почтовый ящик.

Введение

В этой небольшой статье я опишу технологию, по которой я создал все книги в формате DjVu на своём дочернем сайте.

Эта технология основана на собранных мною в Интернете сведениях (кое-что я придумал сам) и во многом использует устоявшиеся и общепринятые в этом деле принципы. Она совершенно проста, технологична, действительно надёжна и даёт хорошие результаты. Она не требует скачивания относительно громоздких и экзотических программ - например, Book Restorer v4.1 Eng, RasterID v3.5.94 Rus (которые вообще-то довольно полезны; их также можно скачать с моего сайта). Её единственный недостаток - опора преимущественно на ручную работу, но, с другой стороны, это даёт возможность постоянно контролировать качество получаемого результата в процессе создания книги.

Для создания электронных книг в формате DjVu я использую следующие программы: ABBYY FineReader v7.0 (достаточно использовать бесплатную пробную версию, скаченную из Интернета), Adobe PhotoShop v5.0 (более старшие версии мне не нравятся - они имеют ненужные навороты и ГОРАЗДО медленнее работают), Document Express Enterprise with DjVu v5.1 (можно Light Edition) (DEE 5.1 или DEE 5.1 LE), Document Express Editor 5.0. Просматривать готовые DjVu-книги лучше всего броузерным DjVu-плагином v5.0, потому что он поддерживает мышиное колёсико (правда, пока лишь в пределах текущей страницы многостраничного DjVu-файла), чем не могут похвастаться все предыдущие версии плагина. Для просмотра можно также использовать программу WinDjView, но мне она не очень нравится - качество отображения DjVu-файла у неё чуть хуже, чем у плагина, но зато WinDjView имеет 2 важнейших преимущества перед броузерным DjVu-плагином v5.0: малый размер дистрибутива и поддержку мышинного колёсика в пределах ВСЕГО многостраничного DjVu-файла, а не в пределах текущей страницы. В броузерном DjVu-плагине v5.0 приходится перемещаться со страницы на страницу в многостраничном DjVu-файле при помощи клавиш "Пробел" и "Backspace".

Опишем процесс создания DjVu-книги по порядку.

1. Сканирование

Для сканирования бумажных книг проще всего использовать программу ABBYY FineReader v7.0, потому что она наиболее доступна и широко распространена, а также там есть функция "Сканировать несколько страниц", т.е. при запуске этого режима загружается сканерный интерфейс, и при этом потом остаётся лишь совершать простую циклическую деятельность: переворачиваем в книге страницу, кладём её на сканер, сверху на книгу кладём что-нибудь тяжёлое (чтобы прижать её к стеклу сканера; только не раздавите стекло), нажимаем в сканерном интерфейсе на кнопку "Сканировать" и т.д. до конца книги, и при этом сканы автоматически записываются в пакет, тогда как обычная программа, тот же Adobe PhotoShop v5.0 требует сохранять отдельно каждый полученный скан.

Программа ABBYY FineReader v7.0 работает с понятием "пакет". Вам нужно это хорошо понимать - это ключевое понятие для работы с ABBYY FineReader v7.0. Пакет - это в данном случае просто папка с отсканированными изображениями в графическом формате *.tif и файлами *.frf - для хранения распознанных страниц. При открытии программы пакет не создаётся (точнее, создаётся, но безымянный и по умолчанию, и его всё равно потребуется сохранить при закрытии ABBYY FineReader v7.0), его нужно обязательно создать вручную и тут же сохранить его прямо так, пустым, а затем сканировать в него страницы, т.е каждая сканируемая страница будет автоматически записываться в этот пакет. Каждый пакет в ABBYY FineReader v7.0 имеет настройки, но об этом - чуть позже.

Сканировать бумажную книгу следует с оптическим разрешением не ниже 300 dpi. Я всегда сканирую при 400 dpi. Это нужно для того, чтобы полученные сканы можно было потом распознать - во-первых, в процессе создания внедрённого в DjVu-файл текстового OCR-слоя, а во-вторых, в далёком будущем, с целью создания полностью текстовой электронной версии книги. Рекомендуется сканировать книги либо на 300 dpi (наименьший размер, но при минимально приемлемом качестве), либо на 600 dpi (наибольший размер, но при наилучшем качестве). Считается, что сканировать на промежуточных разрешениях (например, как я, на 400 dpi) - нецелесообразно, т.к. и размер получается большим, и качество не наилучшее. Просто у меня это разрешение (400 dpi) "исторически сложилось" :).

Я всегда сканирую книги с цветной обложкой в цвете - так у книги получается более "товарный" вид. Цветную обложку в цвете лучше отсканировать в Adobe PhotoShop v5.0 (например, при 200 dpi), а не в ABBYY FineReader v7.0 - там это не очень удобно делать, нужно обязательно сохранять её по F12 и там ещё всегда  автоматически применяется операция устранения перекоса (deskew) - что в данном случае ни к чему.

При сканировании бумажных книг не требуется получать высокое качество сканов (как, например, при сканировании фотографий). И не важно, если полученные сканы будут местами светлее/темнее, не беда, если бумажная книга пожелтевшая, рваная, грязная, исчёрканная ручкой или карандашом - сканы всё равно потом будут обрабатываться, и все эти недостатки легко устранятся при этом. Почти всегда электронная версия бумажной книги получается "презентабельнее", чем сама исходная бумажная книга.

При сканировании надо стараться сильно не перекашивать бумажную книгу на сканерном стекле и обеспечивать максимально плотное и равномерное прижатие книги к сканерному стеклу.

2. Предварительная обработка

После того, как бумажная книга отсканирована, получившиеся сканы в графическом формате *.tif нужно слегка отредактировать (для приведения их к удобоваримому виду и уменьшению их размера) и записать полученные сканы-полуфабрикат на CD-RW диск - чтобы полностью исключить возможность гибели сканов из-за возможного падения винта.

Сканы, полученные в ABBYY FineReader v7.0, являются многостраничными tif-файлами. Многостраничные tif-файлы - это такие tif-файлы, которые содержат несколько картинок в одном файле. Легче всего это можно увидеть, если щёлкнуть правой кнопкой мышки на tif-файле, выбрать в самом низу контекстного меню пункт "Свойства", затем выбрать вкладку "Рисунок" (или что-то такое) - Вы увидите там информацию, сколько "страниц" находится в данном tif-файле. Это же можно выяснить при помощи ACDSee.

В сканах, полученных в ABBYY FineReader v7.0, нам нужна только первая "страница" каждого многостраничного tif-файла - скана. 2-ая и 3-яя "страница" у каждого скана от ABBYY FineReader v7.0 используется им для хранения эскизов-превьюшек сканов (которые Вы видите в левом узком окне в ABBYY FineReader v7.0) и несжатого изображения скана. Вот почему размер получающегося пакета довольно большой - примерно 1,5-1,8 гигабайта. Так что не забудьте до начала сканирования обеспечить на жёстком диске 2-2,5 гигабайт места (с запасом).

Так что СРАЗУ ЖЕ после сканирования "отпилите" 2-ую и 3-юю "страницы" у каждого скана. Это можно сделать либо сохранением сканов в ABBYY FineReader v7.0 по F12 (с последующим их групповым переименованием в ACDSee или в Irfan View - с целью вернуть им такие же имена, как были у них в пакете - "0001", "0002", и т.д.), либо при помощи Irfan View v3.97 и выше - только сначала переместите tif-файлы из пакета в просто папку. Отделить tif-файлы от файлов других типов в пакете проще всего через windows-поиск файлов с расширением *.tif. Итак, в Irfan View v3.97 сбросьте в "Настройки" галки "сохранить все страницы исходного изображения" и "сохранить палитру для изображений в оттенках серого", установите "Сжатие при сохранении" на значение "CCIT Fax Group 4", а в "Дополнительные настройки" сбросьте самую нижнюю галку в правом углу "изменения - для всех страниц (TIF)", установите такое же разрешение, что и у сканов, и прогоните пакетно все сканы через Irfan View. (Эти настройки автозапомнятся и будут такими же при будущем запуске Irfan View - этой великолепной программы).

В результате Вы должны получить одностраничные tif-файлы в битовом режиме, сжатые в режиме CCIT Fax Group 4 - это максимальный режим сжатия без потери качества для БИТОВЫХ чёрно-белых tif-файлов. Битовые - это значит имеющие всего 2 цвета для отображения - чёрный и белый. Это ОЧЕНЬ важно. Нужно ОБЯЗАТЕЛЬНО "перегнать" сканы перед кодированием их в DjVu в БИТОВЫЙ режим (CCIT Fax Group 4 или какой-то другой битовый режим) - особенно если Вы сканировали не в ABBYY FineReader v7.0. Мне приходилось видеть DjVu-книги, закодированные из tif-файлов, которые были в режиме 256 Gray и даже True Color (это для чёрно-белого текста-то!). Это приводит, во-первых, к огромному увеличению размера получаемого DjVu-файла, а во-вторых, к УЖАСНОМУ ухудшению его читабельности - получается размытый текст. А если не "отпилить" 2-ую и 3-юю "страницы" у каждого скана, то все они закодируются в DjVu, что во-первых, совершенно не нужно, во-вторых приведёт к резкому увеличению размера полученного DjVu-файла, и в-третьих, часто приводит к внезапному и труднообъяснимому "вываливанию" процесса кодирования tif -> djvu в DEE 5.1.

Правда, бывают и исключения из этого правила. Например, когда сканы получены с плохих ксерокопий или цифровым фотоаппаратом при плохой освещённости. В этом случае приходится оставлять сканы в "сером" перед кодированием их DjVu - потому что их отвратительная контрастность не даёт преобразовать их в ч.б. битовый режим без потери читабельности.

Также есть и другое исключение: иногда в книгах попадаются чёрно-белые рисунки-фотографии - они и визуально определяются именно как фотографии реальных объектов, а не как обычные рисунки. Сканы с такими рисунками-фотографиями плохо автоматически преобразовываются в битовый режим в ABBYY FineReader v7.0 (потом мы сделаем это в Irfan View) - при этом на рисунке-фотографии появляются белые проплешины. Такие рисунки-фотографии следует отдельно сохранять на CD-RW диске в режиме 256 Gray.

Для этого делаем следующее: после того, как Вы отсканировали всю книгу в ABBYY FineReader v7.0, Вы должны ПОВТОРНО отсканировать бумажные страницы с рисунками-фотографиями, но уже не в ABBYY FineReader v7.0, а в Adobe PhotoShop v5.0 - потому что он даёт "серые" сканы. На каждом "сером" скане выделите инструментом-прямоугольником (при помощи мыши) сам рисунок-фотографию (или их группу на скане), скопируйте его в буфер (точнее, скопируйте область чуть большей площади с рисунком-фотографией в центре - с запасом по контуру), создайте новый файл, вставьте туда этот рисунок-фотографию и сохраните файл. Потом запишите полученные файлы с рисунками-фотографиями-полуфабрикатами на CD-RW диск.

Теперь необходимо проделать предварительную обрезку сканов - она совершенно необходима для последующей обработки и предварительной обрезкой нельзя пренебрегать. По способу сканирования (в зависимости от геометрических размеров бумажной книги) все сканы можно поделить на 2 вида:

1. Сканы малоформатных книг - на одном скане 2 сдвоенные страницы (разворот бумажной книги).

2. Сканы крупноформатных книг - на одном скане 1 страница с частью (в виде полосы) соседней страницы.

Для каждого из этих 2 видов сканов применяется свой способ ПРЕДВАРИТЕЛЬНОЙ (окончательная будет на следующем этапе) обрезки сканов. Рассмотрим подробно оба случая.

2.1. Предварительная обрезка малоформатных книг (1 скан - 2 страницы)

В этом случае Вам нужно, во-первых, повернуть на 90 градусов все страницы пакета (это немного увеличивает размер пакета), а во-вторых, разрезать сдвоенные страницы. Повернуть на 90 градусов все страницы пакета можно через меню в ABBYY FineReader v7.0, а можно и при помощи Irfan View (в этом случае сначала переместите tif-файлы из пакета в просто папку).

Разрезать сдвоенные страницы следует всегда. Если Вы любите читать DjVu-книгу со сдвоенными страницами ("разворот"), то всё равно разрезайте их. Есть программа DjVuReader v2.0.0.26, которая умеет показывать DjVu-книги с обычными, одиночными страницами в виде разворотов, т. е. она может выводить на экран сразу по 2 страницы - "левую" и "правую". Кажется, это также умеет делать программа DjVu Fancy Viewer - но она сейчас есть только в демонстрационной онлайн-версии и пока что полностью непригодна к использованию.

Разрезать сдвоенные страницы лучше всего при помощи ABBYY FineReader v7.0. Это делается ПОЛНОСТЬЮ автоматически, очень быстро (3-5 минут), и очень качественно. Конечно, некоторые сканы при этом разрезаются неправильно - но их очень мало, в среднем 6-8 сканов на книгу, их нужно просто заново разрезать руками в Adobe PhotoShop v5.0 (выделяем нужную область прямоугольником, копируем её в буфер, создаём новый файл, вставляем туда содержимое буфера и сохраняем новый файл).

Для разрезания сдвоенных страниц делаем следующее: создаём и сохраняем новый пустой пакет. В пункте меню "Сервис -> Опции" ставим галочку "Делить разворот книги". В меню "Файл" выбираем пункт "Открыть изображение" и выбираем все сдвоенные сканы, которые надо разрезать. Нажимаем "Открыть". Начнёт заполняться новый проект и при этом к каждому добавляемому файлу будут применяться выбранные опции проекта (здесь разрезание сдвоенных страниц). После окончания процесса нужно будет опять извлечь из пакета полученные разрезанные tif-файлы и "отпилить" у них 2-ую и 3-юю "страницы" - так, как это уже было описано выше.

2.2. Предварительная обрезка крупноформатных книг (1 скан - 1 страница с полосой)

Для этого случая используется программа СканКромсатор, ABBYY FineReader v7.0 тут не подойдёт. Сначала необходимо отделить сканы с чётными именами файлов от сканов с нечётными именами файлов (все сканы, полученные при помощи ABBYY FineReader v7.0, имеют имена файлов вида "0001", "0002", "0003", и т.д.). Это делается так: в Windows открывается папка с файлами-сканами и окно папки мышкой растягивается так, чтобы упорядочить иконки файлов нужным образом, а именно файлы с чётными именами должны быть под другими файлами с чётными именами в столбцах, то же самое касается файлов с нечётными именами. Затем просто мышкой выделяем, скажем, всё "чётные" столбцы иконок файлов и перетаскиваем их в другую папку. При этом окно папки-источник не закрываем, а то файлы опять перемешаются.

В результате этих манипуляций Вы должны получить 2 папки: в одной будут сканы с чётными именами файлов, а в другой - с нечётными.

Далее запускаем СканКромсатор и загружаем туда всё чётные файлы (Меню "File" -> "Open" или нажимаем на кнопку, где изображена папка с зелёной стрелочкой). В левом вертикальном узком окне отображается список загруженных файлов. Выбираем в меню "Edit" -> "Clear all options". На вкладке "Pages" ставим галочку "Split". На вкладке "Files" выбираем значение "Output dir" (можно просто поставить галочку "Default") - это папка, куда будет помещён результат обрезки. Проверяем тут же, чтобы поле "DPI" имело значение "Original".

Начинаем подготовку задания на обрезку. Над главным окном есть 2 горизонтальных ползунка. Используем нижний - при наведении на него мышки появляется подсказка "Set internal margin or split line". Хватаем ползунок мышкой и двигаем его вправо. Сразу же видим, что вниз от острия ползунка идёт синяя линия. Это т.н. "резак", его надо установить на границу сопряжения основной страницы на скане с полосой соседней страницы. Потом СканКромсатор будет резать скан прямо по этой синей линии-резаку. После того, как резак правильно установлен на скане, надо в окне со списком загруженных файлов поставить галочку (жирную зелёную) на имени того файла, где мы только что выставили резак - выставление этой галочки это означает запоминание позиции резака. (Если резак потребуется передвинуть, то снимаем эту галочку, двигаем резак, и опять устанавливаем эту галочку).

И так далее для всех сканов. Для перехода от файла к файлу в СканКромсаторе используются клавиши "q" - "w" и "[" - "]". Резаки в СканКромсаторе помнят последнюю установленную позицию, поэтому, как правило, при переходе с файла на файл Вам даже не потребуется подвигать резак на новую позицию - ведь для предварительной обрезки особая точность не нужна, главное - "отпилить" боковую "паразитную" полосу на скане и всё.

Через некоторое время процесс подготовки задания на обрезку будет выглядеть так: Вы нажимаете на клавишу "]", при этом загружается очередной обрезаемый файл, Вы смотрите, не надо ли чуть подправить мышкой позицию резака (а в большитнстве случаев это не потребуется делать), и нажимаете левую кнопку мыши, чтобы поставить галочку около имени файла в окне со списком  файлов (при этом курсор мыши уже там стоит). Поскольку при пеерходе с файла на файл списко файлов будет автоматически прокручиваться в окне, то Вам даже не потребуется двигать мышь! Очередной файл будет сам "подлезать" под курсор мыши. Вам останется только следить за правильной позицией резака и всё.

Таким образом можно КРАЙНЕ быстро и эффективно составить задание на обрезку сканов.

После этого, запускаем саму обрезку нажатием кнопки "Process!" и ждём, пока она закончится. После этого автоматически откроется окно постобработки, но нам оно тут не нужно, поэтому закрываем его и выходим из программы.

Итак, мы получили в некоторой папке обрезанные нужным нам образом чётные файлы. Теперь нам нужно проделать над ними групповое переименование так, чтобы нужные нам страницы имели правильные имена. Вам потребуется просто сместить начало нумерации файлов на единицу вперёд или назад - сориентируйтесь по месту самостоятельно. Групповое переименование удобнее всего проделать при помощи ACDSee, хотя можно использовать и Irfan View.

Затем способом, описанным выше, отделяем чётные нарезаные сканы от нечётных, и нечётные теперь уже просто удаляем (т.к. это просто ненужные обрезки).

Далее повторяем весь этот цикл для нечётных исходных сканов (т.к. пока что мы обрезали только чётные сканы). А в конце просто сливаем чётные и нечётные сканы (теперь уже обрезаные нужным образом) в одну папку.

2.3. Завершение предварительной обработки

Проверьте - все ли страницы Вы отсканировали из бумажной книги, нет ли пропусков, и проверьте, есть ли страницы с наползающими на текст черными пятнами - такие есть практически всегда. Пересканируйте заново все такие страницы.

Остаётся последний этап - очистка мелкого мусора, который называется "despeckle" - от англ. "speckle" - крапинка, пятнышко. Для этого делаем следующее: создаём новый пустой пакет. В пункте меню "Сервис -> Опции" ставим галочку "Очистить от мусора". В меню "Файл" выбираем пункт "Открыть изображение" и выбираем все сканы, которые надо почистить. Нажимаем "Открыть". Начнёт заполняться новый проект и при этом к каждому добавлемому файлу будут применяться выбранные опции проекта (здесь очистка от мусора). После окончания процесса нужно будет опять извлечь из пакета полученные разрезанные tif-файлы и "отпилить" у них 2-ую и 3-юю "страницы" - так, как это уже было описано выше.

Необходимо упомянуть, что программа ABBYY FineReader, начиная с версии как минимум 4, автоматически исправляет неправильный наклон страниц (по-английски "deskew" от "skew"  - наклон, склон, скос, уклон) на каждом этапе обработки - за deskew (насколько я знаю, я не уверен на 100%) отвечает галочка "Определять ориентацию страницы (при распознавании)", которая всегда стоит по умолчанию.

Если Вы всё сделаете, как я описал, то у Вас должен получится комплект сырых сканов размером от 15 до 50 МБ - что совершенно реально записать на CD-RW диск. Цветную обложку записывайте на CD-RW диск прямо в формате tif - не надо преобразовывать её в формат jpg ради уменьшения размера - от этого страдает качество изображения. Также рекомендую отдельно записать рисунки-фотографии.

3. Редактирование

Я хотел бы порекомендовать постепенную и поэтапную работу. Не надо делать всю работу за один присест. После того, как Вы запишете сканы-полуфабрикат на CD-RW диск - отложите его на недельку, отдохните, не надо насиловать себя и тут же кидаться доводить сканы-полуфабрикат до ума. Берегите свои силы и нервы и не допускайте перенапряжения самого себя.

Сканы-полуфабрикат с CD-RW диска необходимо окончательно отредактировать перед тем, как закодировать их в формат DjVu. Это нужно сделать как для улучшения внешнего вида будующей книги, так и для уменьшения её размера.

Окончательная обрезка сканов осуществляется в Adobe PhotoShop v5.0. Я делаю её так: Сначала создаю в Adobe PhotoShop v5.0 пустой файл-шаблон с такими размерами (которые подбираю опытным путём), чтобы он был чуть-чуть больше "зоны значимости" на каждом скане, т.е. той части площади скана, которая содержит интересующую нас информацию (остальное - поля) и с желаемым разрешением. Потом я просто вручную копирую каждый скан и, вставляя его в шаблон (который, понятно, меньше скана), центрирую скан мышкой относительно шаблона на глаз так, чтобы получились ровные поля. Затем сохраняю теперь уже будующую страницу книги в пункте меню Файл - Сохранить Копию, а изменения в шаблоне - не сохраняю. И так далее, до конца сканов. Попутно "доворачиваю" вручную те сканы, которые ABBYY FineReader v7.0 плохо повернул в нормальное положение, в Adobe PhotoShop v5.0 так: Изображение -> Перевернуть холст -> Произвольный. Вводим произвольный угол поворота, разделяя дробную часть угла запятой. Пункт "Произвольный" будет поначалу неактивным, чтобы активизировать его, нужно изображение преобразовать так: Изображение -> Режим из Bitmap в Ч-Б, а потом, после поворота, обратно в Ч-Б.

Следующим этапом я вручную редактирую в Adobe PhotoShop v5.0 будующие страницы книги - тут Ваша фантазия не ограничена. Я убираю мусор в основном и т.п. Я рекомендую убирать черные полосы, пятна и всевозможную грубую грязь с боков скана - сделать это несложно, зато вид у книги становится ГОРАЗДО лучше. Оставленная грубая грязь ОЧЕНЬ портит впечатление от книги. Мелкую грязь, оставшуюся после despeckle (оставшиеся крупинки, соринки), я оставляю - на мой взгляд, она не критична, а вот удалять её морока, по крайней мере вручную в Adobe PhotoShop v5.0. Если же кому-то хочется удалить и её, то читайте пункт 4.

3.1. Обработка рисунков-фотографий (необязательно)

Если в данной книге есть рисунки-фотографии, то сканы с ними нужно подготовить перед кодированием их в DjVu. Нужно вставить на соответствующие сканы заготовленные ранее (и сохранённые на CD-RW диске) рисунки-фотографии. Перед вставкой в скан рисунки-фотографии иногда приходится немного повернуть (см. описание чуть-чуть выше) (используйте шаг 0,1) и почти всегда осветлить в Adobe PhotoShop v5.0 так: Изображение -> Настройка -> Яркость/Контраст. Двигаем вправо ползунок "Яркость" на 10-80 единиц (сколько нужно). (Кстати, как Вы поняли, все эти регулировки работают только для "серых" и цветных рисунков, а не для битовых, поэтому в случае чего нужно делать преобразование прямо в Adobe PhotoShop v5.0 (как описано выше).

Вставив рисунки-фотографии в ч.б. битовые сканы, конвертируем их опять в ч.б. битовый формат (при помощи ТОЛЬКО Irfan View, ACDSee тут не дойдёт - tif-файлы после него не откроются при кодировании в DjVu) и пробуем по одному закодировать эти сканы в DjVu в Document Express Editor 5.0 - только чтобы посмотреть, как они получаются. Если всё же темновато - увеличиваем ещё яркость рисунков-фотографий в Adobe PhotoShop v5.0, опять пробно кодируем сканы и смотрим, как получилось.

Когда добьёмся нужного качества - то просто заменяем в общей куче старые ч.б. битовые сканы (из-под ABBYY FineReader v7.0) новыми, с вставленными рисунками-фотографиями - только непосредственно перед кодированием в DjVu, чтобы при последующих этапах обработки-редактирования случайно не испортить их - сохранением в Кромсаторе или ещё чем-то.

Кодируются такие "новые" сканы с рисунками-фотографиями (будучи сконвертированными через Irfan View в ч.б. битовый формат) на общих основаниях со всеми остальными - в DEE 5.1.

3.2. Тонкая очистка (необязательно)

Под тонкой очисткой здесь подразумевается окончательная очистка сканов от грязи. Этот этап обработки следует делать ТОЛЬКО в крайнем случае - когда сканы после всех обработок и очисток остаются всё же сильно загрязнёнными многочисленными мелкими точками и соринками. Это довольно временеёмкий этап обработки. Обычно и в большинстве случаев следует обходиться вообще без него. То есть нормой является НЕПРИМЕНЕНИЕ этого этапа обработки.

Для тонкой очистки используется СканКромсатор. Он значительно облегчает и ускоряет очистку сканов от грязи, не наползающей на текст (т.е. подавляющее большинство случаев). В случаях наползания грязи на текст используйте Adobe PhotoShop v5.0, потому что СканКромсатором в этих случаях пользоваться очень неудобно.

Для очистки сканов от грязи в СканКромсаторе используется встроенный редактор постобработки. К сожалению, туда невозможно загрузить "сторонние" сканы, а можно обрабатывать (в данном случае чистить) только обработанные в СканКромсаторе сканы (поэтому он и называется - "редактор постообработки"). Я уже просил автора подправить СканКромсатор нужным образом, возможно, он это реализует позже. А пока можно сделать следующее: запускаем СканКромсатор и загружаем туда сканы, подлежащие чистке (Меню "File" -> "Open" или нажимаем на кнопку, где изображена папка с зелёной стрелочкой). В левом вертикальном узком окне отображается список загруженных файлов. Выбираем в меню "Edit" -> "Clear all options". На вкладке "Pages" ставим галочку "Despeckle". На вкладке "Files" выбираем значение "Output dir" (можно просто поставить галочку "Default") - это папка, куда будет помещён результат обрезки. Проверяем тут же, чтобы поле "DPI" имело значение "Original". На вкладке "Options" в поле "Despeckle" выбираем значение "Safe".

После этого, запускаем эту "липовую" обработку нажатием кнопки "Process!" и ждём, пока она закончится. После этого автоматически откроется окно редактора постобработки - которое нам и нужно. Сразу сохраняем задание на обработку: меню "File" -> "Save task". Теперь мы сможем попасть в редактор постобработки открытием этого задания на обработку (меню "File" -> "Open task") и выбором пункта меню "Result" -> "View all".

Только теперь мы можем заняться непостредственно очисткой сканов от грязи. В окне редактора постобработки кликаем правой кнопкой мыши на скане и выбираем в контекстном меню пункты "AutoSave" (автоматическое сохранение изменений при переходе со скана на скан) и "AutoClear" (автоматическая очистка при выделении).

Теперь для очистки загрязненного участка скана достаточно обвести его прямоугольником - по левой кнопке мыши и отпустить левую кнопку - при этом загрязненный участок автоматически очистится. Если Вы случайно сотрёте что-то нужное - то просто сбросьте галочку "AutoSave" и перейдя на другой файл, вернитесь на этот же файл снова - автосохранение происходит в момент перехода с файла на файл.

Переход от файла к файлу в редакторе постобработки осуществляется при помощи клавиш "q" - "w", "[" - "]", "PageUp" - "PageDown".

5. Кодирование

Я кодирую tif'ы в DjVu при помощи программы Express Enterprise with DjVu v5.1 (можно Light Edition) (DEE 5.1 или DEE 5.1 LE). Раньше для этого использовалась программа DjVu Solo v3.1 - но с появлением DEE 5.1 она устарела. DjVu Solo v3.1 и DEE 5.1 соотносятся примерно как деревянный самокат и современный автомобиль. Программа DEE 5.1 - это на самом деле 2 программы - Configuration Manager и Workflow Manager. Если Вы сканировали не на 300 dpi, то сначала запустите Configuration Manager - эта программа используется для настройки т.н. профилей кодирования. Создайте свой пользовательский профиль на базе имеющегося профиля "Very Aggressive (300 dpi)" - оставьте все параметры как есть, только замените разрешение с 300 dpi на своё разрешение (Advanced Settings -> Transform -> Dots Per Inch) (со знаком "минус") и сохраните профиль под своим именем. Закройте Configuration Manager.

Запустите Workflow Manager. Это и есть сама программа кодирования в DjVu. Она работает с концепцией "задание" ("job"). На открытой вкладке "Workflow" выберите в выпадающем меню "Raster Profile" свой созданный профиль (или профиль "Very Aggressive (300 dpi)", если у Вас сканы на 300dpi). Перейдите на вкладку "Input". Выберите радиокнопку "File Mask(s)". В поле ввода "Root Folder" нажмите справа кнопку с 3 точками и выберите папку, где находятся tif-файлы, подлежащие кодированию. Перейдите на вкладку "Output". Выберите в выпадающем меню "Separate Document(s) by" значение "One document only". В разделе "Output location for" справа от выпадающего меню "DjVu Files" нажмите на гиперссылку "Choose Folder..." и выберите папку, куда попадёт созданный DjVu-файл. После этого в большом левом окне поставьте галочку в квадратике слева от названия задания (по умолчанию это "untitled job1"). Тут же начнётся процесс кодирования. На экране появится окно консольного приложения "documenttodjvu". Как только оно закроется - DjVu-файл готов (если не возникло ошибок, что можно проверить на вкладке "Log"). Закройте Workflow Manager. Программа предложит Вам сохранить задание со всеми настройками. Сохраните его и в следующий раз Вы можете просто положить кодируемые tif-файлы в ту же папку-источник, запусить Workflow Manager, сразу запустить кодирование и получить результат. Всего лишь в несколько мышинных кликов! Для DjVu Solo v3.1 это недостижимый идеал. В DjVu Solo v3.1 нужно изрядно буквально помучаться, чтобы получить такой же результат.

Однако, можно кодировать tif'ы в DjVu и при помощи программы DjVu Solo v3.1 (не рекомендуется). Это делается так: в DjVu Solo v3.1 открывается один tif-файл - для простоты первый (можно использовать "Drag-and-Drop") и кодируется в DjVu (меню "File" -> "Save As" или "File" -> "Encode As DjVu"). При кодировании всех ч.б. сканов оставляем стоящий по умолчанию режим "Scanned".

После того, как мы получили один DjVu-файл, добавляем в проект для кодирования все остальные наши tif'ы. Выбираем в меню "Edit -> Insert Pages After" и в открывшемся диалоге выбираем все остальные (кроме уже закодированного) tif'ы. Выбрать их проще всего так: в окне диалога выбираем тип файлов "tif", и удерживая нажатой клавишу "Shift", выделяем мышью последний файл в списке. Затем, удерживая нажатой клавишу "Ctrl", деселектируем в списке уже закодированный tif-файл. Нажимаем кнопку "Открыть".

И вот тут может начаться самое неприятное. Иногда в процессе загрузки множества tif-файлов DjVu Solo v3.1 зависает (особенно для "серых" или многостраничных tif-файлов), а иногда работает нормально. Никогда нельзя быть уверенным в том, что получится закодировать в DjVu всю книгу. А вот DEE 5.1 LE всегда работает стабильно и поэтому является единственным действительно надёжным инструментом для ГРУППОВОГО кодирования tif-файлов в DjVu).

6. Распознавание

После того, как DjVu-книга готова, можно добавить к ней текстовый слой (это называется OCR - Optical Character Recognition - оптическое распознавание текста), как в некоторых Pdf-файлах - это одна из возможностей формата DjVu. Я бы отметил, что формат DjVu даже немного лучше в этом отношении, чем формат Pdf: нет таких дичайших проблем с русскими шрифтами.

Почему-то многим это кажется трудным и тяжёлым, хотя на самом деле - это САМАЯ лёгкая операция из всех этапов создания DjVu-книги. Ведь всё дело в том, что в данном случае НЕ НАДО вручную корректировать результаты распознавания, как если бы мы хотели получить вордовский doc-файл из DjVu-файла. Достаточно просто распознать текст и "прожечь" его в DjVu-файл без ручной правки - ведь 100% точность распознавания тут не нужна, т.к. у нас ведь всё равно остаётся само изображение текста на скане. Распознавание DjVu-книги нужно просто для удобства, оно не является необходимостью.

На сегодняшний день существует по крайней мере 2 программные возможности по добавлению текстового слоя в DjVu-файл, причём в обоих случаях можно добавить текстовый слой на почти любом распространённом языке - английском, русском, украинском, немецком, французском, и т.д.

Первая возможность - это использование связки DjvuOCR 2.0 pre + ABBYY FineReader v7.0. Причём для этой цели достаточно иметь даже бесплатную пробную версию FineReader'а, скаченную из Интернета! То есть даже кряк применять не потребуется! Программа DjvuOCR 2.0 pre написана болгарским программистом Генчо. Эта программа перерабатывает FineReader'овские frf-файлы с распознанной информацией и внедряет информацию из них в соответствующие одностраничные DjVu-файлы. Это совершенно гениальная вещь. Уважаемый Генчо, честь Вам и хвала на века за эту программу!

Текст из такого внедрённого текстового слоя можно скопировать в буфер обмена и вставить в текстовый файл, а также он становится "виден" стандартному Windows-поиску (по опции "Искать текст") с проинсталлированной бесплатной LizardTech'овской утилитой DjVu IFilter v1.1 (она есть здесь, на этом сайте) - т.е. можно искать в Windows нужный DjVu-файл уже не по имени, а по нужному ключевому слову внутри него.

Рассмотрим технологию внедрения текстового слоя в DjVu-файл при помощи программы Генчо.

Сначала нужно распознать tif-файлы книги в FineReader'е, для того, чтобы получить frf-файлы с распознанной информацией. Я могу посоветовать распознавать tif-файлы в фоновом режиме (так быстрее) - выбираем в меню FineReader'а пункт "Процесс -> Запустить фоновое распознавание". Язык распознавания для большинства случаев можно оставить по-умолчанию - русско-английский. Хотя иногда бывает полезным задать несколько языков распознавания одновременно - для этого нужно в выпадающем списке языков выбрать второе значение - "Выбор из полного списка языков...". Добавлять имеет смысл (при необходимости) греческий язык (для формул), языки Basic, С/С++, Pascal, Java, Fortran, COBOL  (да, FineReader и такое может!), языки "Английский (Медицинский словарь)", "Английский (Юридический словарь)", "Немецкий (Медицинский словарь)", "Немецкий (Юридический словарь)", "Цифры", бывает, встречаются в книгах немецкий или украинский языки.

Программа DjvuOCR 2.0 pre позволяет осуществить распознавание даже при отсутствии tif-файлов - она может переконвертировать имеющийся многостраничный DjVu-файл в набор tif-файлов для распознавания. Перед распознаванием нужно в FineReader'овском проекте Сервис -> Опции -> Сканирование/Открытие сбросить галочку в пункте "Определять ориентацию страницы (при распознавании)". Это нужно сделать для того, чтобы FineReader не поворачивал на 90 градусов те страницы книги, где текст напечатан с разворотом в 90 градусов (т.е. страницы с альбомной, а не портретной ориентацией).

После распознавания создаём где-нибудь (на диске С:\ удобно) 2 папки - первую для frf-файлов (назовём её "frf"), вторую - (назовём её "txt") для txt-файла с распознанной информацией. Копируем в папку "frf" FineReader'овские frf-файлы с распознанной информацией (из пакета FineReader'а, с которым мы работали при распознавании). Папку "txt" оставляем пустой - эту папку наполнит сама программа.

Далее запускаем программу DjvuOCR 2.0 pre. Выбираем режим "Batch mode OCR manager" (он стоит по умолчанию) и нажимаем кнопку "Next". Заполняем поле "FineReader Project Directory" - нажимаем на кнопку "Browse" и выбираем нашу папку "frf". Точно также заполняем и поле "Output OCR text Directory", только там прописываем путь к нашей папке "txt". Далее заполняем поле "DjVu File list" - нажимаем на кнопку "Add" и добавляем туда наш многостраничный DjVu-файл. Затем проверяем наличие галочки в пункте "Burn DJVU books" и наличие единицы в поле "Start page # in FineReader Project", выставляя эти значения при их отсутствии. В поле "Last page # in" вводим число страниц в многостраничном DjVu-файле. В поле "Original DPI" вводим разрешение DjVu-файла (Должно быть такое же, как и при сканировании). Нажимаем на кнопку "Process" и ждём, пока обработаются все наши одностраничные DjVu-файлы.

Теперь всё готово. Текстовый слой внедрён в наш DjVu-файл.

Достоинства такого способа внедрения текстового слоя - относительная простота, поддержка 176 языков (из-за FineReader'а), бесплатность всех используемых программ. Недостатки - невозможность прямого распознавания DjVu-файла без промежуточного преобразования в Tif и невозможность убрать текстовый слой из DjVu-файла.

Этих недостатков лишён второй способ внедрения текстового слоя в DjVu-файл - через использование программы Document Express Editor 5.0 от LizardTech (она есть здесь, на этом сайте). Эта программа появилась недавно, и поэтому этот способ внедрения текстового слоя - самый новый пока. Он удобен тем, что Вы просто открываете в этой программе DjVu-файл и тут же распознаёте его без лишних хлопот. Кстати, этой программой можете даже и убрать внедрённый текстовый слой из DjVu-файла. Недостатки этого способа - гораздо более худшее качество распознавания, чем у связки DjvuOCR 2.0 pre + ABBYY FineReader v7.0, большой размер скачиваемого дистрибутива - 54 МБ, меньшее количество языков распознавания (45 против 176 у FineReader'а). Для распознавания используется OCR-движок от Image Recognition Integrated Systems SA, © 2004 (IRIS S.A.).

7. Добавление цветной обложки (необязательно)

Это необязательный этап. Цветная обложка кодируется в DjVu отдельно, и при помощи программы Document Express Editor 5.0. Можно использовать и DEE 5.1, но будет больше мороки, как это ни странно. Прежде чем кодировать цветную обложку в DjVu, я её долго и тщательно реставрирую вручную в Adobe PhotoShop v5.0 - устраняю перекос, вычищаю грязь, ликвидирую неравномерность цвета обложки, удаляю потёртости, удаляю чёрные полоски с боков и т.п. Всё делается в формате цветной tif и на jpg вообще не перехожу ни на одном этапе.

Методика реставрации цветного изображения проста и одинакова для всех случаев. Всё делается исключительно вручную в Adobe PhotoShop v5.0 - путём копирования прямоугольных кусочков изображения хорошего качества, вставки их поверх участков изображения плохого качества, и размножения полученных областей хорошего качества. Но Вы можете этого и не делать и для простоты не включать скан обложки в будущую эл. книгу, хотя было бы неплохо. Если Вам это интересно, то посмотрите мой пример обработки цветных сканов обложки книги (1,73 МБ).

Это довольно кропотливая работа, требующая некоторого глазомера. Но она не так сложна, как может показаться. Главная хитрость - выбрать наиболее "ЧИСТЫЙ" "хороший" кусочек - чтобы потом
размножить его поверх "плохих" участков.

Готовую обложку надо ещё правильно закодировать в DjVu. У формата DjVu всегда были проблемы с кодированием цветных картинок. Очень часто изображение расплывается. Поэтому нередко приходится идти на кодирование цветной обложки в DjVu в режиме "photo", а не "scanned" (это режим по умолчанию). К сожалению, это сильно увеличивает размер получаемого цветного DjVu-файла, но зато всегда идеально передаётся цвет и фактура обложки.

Когда цветная обложка в DjVu-формате получена, её нужно склеить с остальной книгой. Это можно сделать только при помощи Document Express Editor 5.0, DEE 5.1 на это не способен. Открываем в Document Express Editor 5.0 нашу DjVu-книгу (уже с OCR-слоем, но ещё без обложки). В пункте меню "Edit" выбираем строку "Insert Page(s) Before..." и выбираем нашу цветную обложку в DjVu-формате.

Далее там же в пункте меню "Edit" выбираем строку "Attributes..." и на открывшейся вкладке "Start Up Setting" в разделе "Document" выбираем в выпадающем списке "Zoom" значение "Fit Width" и нажимаем "OK". Это мы выбрали масштаб отображения нашей книги при открытии её в броузерном плагине. Затем сохраняем нашу DjVu-книгу "File -> Save"и выходим из программы.

8. Подписывание (необязательно)

Сделав DjVu-книгу, её можно "подписать" - т.е. добавить информацию о себе - создателе книги и т.п. Это можно сделать путём добавления аннотации - в виде гиперссылки или просто стикера. Всё это можно оформить разными цветами, тенью, выпуклостью и пр. Получается довольно красиво. Лучше сделать этот "штамп" блёклым - так он меньше глаз царапает. Это можно сделать 2-мя способами: вручную в Document Express Editor 5.0 или автоматически небольшой программой "DjVu-штампик" (есть на этом сайте).

9. Размещение в Интернете

Есть несколько вариантов размещения готовой книги в Интернете. Рассмотрим имеющиеся варианты:

1. Бесплатный хостинг www.narod.ru. Самый простой и удобный способ. Недостатки: низкая скорость скачивания файлов для зарубежных пользователей (400 байт/сек.), ограничение на размер файла 5 МБ: "Файлы не могут превышать по размеру 5 МБ. При этом многотомный архив считается одним файлом". Это ограничение Яндекс.Народа - политическое, а не техническое, оно направлено на недопущение превращения этого бесплатного хостинга в файловый архив. Поэтому приходится делать DjVu-книгу не целиком, а кусками до 5 МБ каждый и так и выкладывать, а потом эти куски можно склеить в DjVu Editor 5.0. Это делается так: открываем очередной кусок книги, в левом узком вертикальном окошке "Thumbnails" позиционируем фокус на последней странице открытого куска книги и затем в пункте меню "Edit" выбираем строку "Insert Page(s) After..." и выбираем следующий кусок книги. И так далее, а в конце назначаем получившемуся файлу опцию "Fit Width" (см. выше) и сохраняем его.

Бесплатный хостинг www.narod.ru - самый известный и популярный. Он также самый дружественный к пользователю, самый удобный и интуитивно ясный, рассчитанный на полного "чайника", никогда не прекращающий регистрацию новых пользовательских сайтов. Если бы www.narod.ru не существовало бы, то, наверное, пол-Рунета не было бы вовсе.

2. Некоторые тематические форумы в Интернете.

3. Бесплатный почтовый ящик www.nextmail.ru (правда, он сильно глючный). При нём дают хостинг 100 МБ и 12 МБ макс. файлоразмер. Сейчас этот хостинг работает на удивление стабильно - после недавнего ремонта.

4. Почтовый ящик, защищённый Peer2Mail, см. подробности (ext. link).

5. Файлообменные сервисы - http://rapidshare.de , http://upload2.net , http://megaupload.com и т.д. После закачки туда своей книги размещаете линк на скачивание на посещаемом электронно-книжном Интернет-форуме (например, КпНемо, Натахаус, Аваксхоум и т.д.). Это самый простой вариант, не требующий даже создания своего сайта.

В принципе, я могу сказать совершенно точно: выложить самодельную djvu-книгу в Интернет - не проблема. Было бы что выкладывать. Многие djvu-библиотеки охотно примут Вашу книгу и выложат её у себя. Например, http://sci-lib.com, есть и другие.

Заключение

Подводя итоги, я могу сказать, что создавать DjVu-книги - относительно легко и просто, и это может делать любой владелец сканера. К тому же так можно создавать электронные версии не только книг, а и рисунков, схем, таблиц, карт и т.п. Многие прогрессивные люди так и поступают. Ясно, что формат DjVu сегодня - это практически единственный способ получить нужную узкоспециальную техническую информацию. Невозможно купить все эти книги, невозможно все их найти, и хранить эту гору бумажных книг тоже негде. Так что, дорогие читатели, делитесь с народом (бесплатно!) своими книгами в виде DjVu-сканов, все мы от этого в конечном итоге лишь выиграем.

Давайте посмотрим, в самом деле, почему бы обычному простому человеку этим не заняться - т.е. сканированием, обработкой, и выкладыванием в Интернет электронных книг? Вот взять, скажем, процесс сканирования бумажной книги. Разве это что-то технически трудное или непостижимое? Да вовсе нет - ставим, например, имеющийся у каждого сканеровладельца тот же ABBYY FineReader v7.0 и им и сканируем бумажную книгу - что уж тут трудного? Саму программу (ABBYY FineReader v7.0) настроить для сканирования настолько просто, что вроде бы, это и не нужно объяснять. А сам процесс сканирования - это вообще элементарная, просто обезьянья работа. Всего-то и надо, что вовремя перелистывать страницы, класть их на сканерное стекло и нажимать на сканере кнопку "Сканировать" для каждой страницы - и всё. Конечно, я понимаю - это всех пугает, каждый думает про себя "блин, эта книга такая здоровая, да разве можно её всю отсканировать?" И я так думал раньше . Но, тут главное, как к этому относиться. Никто же не говорит, что книгу надо в один присест всю целиком отсканировать - достаточно 2-3 часа в день сканировать и за 3-4 дня всё и будет отсканировано.

В этом деле, как я уже понял, самое главное - ПСИХОЛОГИЯ. Надо просто не брать всё это в голову и не пугаться размера книги. Сканировать себе да сканировать потихоньку, при этом можно даже и какую-то книгу читать, и музыку слушать, - не заметите сами, как вся книга и отсканируется. Вот попробуйте хотя бы из любопытства. Сканируйте хоть 2 недели по 1 часу в день - знаете, бывает в течение дня такое время, которое всё равно уже никуда толком не используешь - например, перед сном - когда усталость всё равно не позволяет делать ничего осмысленного, у меня, вот к примеру, по утрам иногда час времени бывает свободный, когда всё равно уже ничего серьёзного сделать не успеешь. При таком подходе ( ПОСТЕПЕННОСТЬ ) Вы вообще даже и не почувствуете особой нагрузки на себя. Ведь вовсе не надо напрягаться, насиловать себя - нет, всё тут делается понемногу и постепенно, с сохранением своих сил.

Теперь я уже не боюсь любой, даже самой толстой книги - знаю на своём опыте, что её вполне реально всю отсканировать. Просто так никто не делает (или почти никто - в масштабах населения ), вот оно и кажется какой-то малоосуществимой экзотикой. Вот если бы многие это делали, то и отношение к этому было бы как к рядовой житейской деятельности.

А когда вся книга отсканирована целиком - то уже этим вполне можно и ограничиться. Т.е. в крайнем случае можно ничего больше и не делать уже, только записать сырые сканы на CD-R диск (это займёт 15-50 МБ) и всё. Если не можете, то не надо ни обрабатывать полученные сырые сканы, ни кодировать их в djvu, ни, тем более куда-то там выкладывать их в Интернет. Хотя бы просто отсканируйте и запишите сканы на болванку - и всё. Всю остальную обработку никто ведь Вам не мешает просто отложить до лучших времён. Уж были бы сканы, а там, рано или поздно, найдётся, что с ними сделать - либо самому полностью обработать (что довольно просто и со временем будет становиться всё более понятным новичкам по мере написания новых инструкций), либо куда-то переслать для обработки (только не мне - я этим не занимаюсь - некогда) - хоть даже и посылкой по обычной почте. А если всё же сами сделаете готовую djvu-книгу - то, скорее всего, рано или поздно, найдёте когда-нибудь какую-то возможность переслать её через Интернет для выкладывания - порежете её на куски архиватором хоть по 1 МБ и по электронной почте отправите к обработчикам-добровольцам (я не принимаю - некогда обрабатывать - у меня "своего" выше крыши пока что).

И ещё я хотел бы обратится ко всем создателям электронных DjVu-книг со следующим призывом: Следите, пожалуйста, за КАЧЕСТВОМ создаваемых электронных DjVu-книг. Не спешите побыстрей сделать книгу в ущерб качеству. Лучше меньше, да лучше. Не стоит делать халтуру. Лично я гарантирую определённый уровень качества в "моих" DjVu-книгах. Я видел много электронных DjVu-книг, которые были сделаны с плохим качеством. Проблемы у них были самые разные - неразрезанные сдвоенные сканы, плохо вычищенная грязь, не сделан deskew или же despeckle, отсутствует текстовый OCR-слой. Не говоря уже о том, что левое и правое белые поля в готовой книге - разного размера - это вообще просто бич какой-то - у всех, кроме меня. (Я имею в виду только тех, кто, как и я, создаёт электронные книги по тематике моего дочернего сайта).

Автор статьи: monday2000

Мой E-Mail

27 декабря 2004 года.

Обновлено 19 декабря 2005 года.

P.S. Эта статья ещё будет дорабатываться. Я рассмотрю подробнее процесс выкладывания готовой DjVu-книги в Интернет с обзором бесплатных хостингов и способов закачки. Особенно это касается Peer2Mail. Ну и прочее...

Hosted by uCoz