Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".


Сравнение форматов DjVu и PDF

(только для цели создания электронной версии бумажной книги)


1. Введение

Те, кто самостоятельно сканирует бумажные книги и создаёт из них их электронные версии, нередко задаются вопросом: "Какой формат предпочесть для создания электронной книги - DjVu или PDF?".

Эти форматы во многом похожи - в плане использования их для создания электронных версий бумажных книг. Сравнение 2-х форматов (DjVu и PDF) является темой, которая не раз вызывала ожесточённые споры на различных Интернет-форумах - с многочисленными доводами "за" и "против".

Давайте всё-таки попробуем разобраться - каковы же именно преимущества и недостатки 2-х форматов, какой же из них следует предпочесть и в каких случаях.

Читая различные Интернет-форумы и статьи, нередко можно заметить, что многие люди довольно несведущи в истинных достоинствах и недостатках обоих форматов. Особенно это касается формата DjVu - ему приписываются (по незнанию) самые немыслимые недостатки - на основании чего формат подвергается клеймению в качестве "плохого". Однако, и поклонники формата PDF не всегда знают (или же не осознают) его недостатки.

Незнание подробностей об истинных возможностях и свойствах форматов PDF и DjVu порождает порой всевозможные мифы и заблуждения.

В этой статье я попытаюсь подробно разобрать каждый такой миф и по возможности вскрыть причины его возникновения.

В общем и в целом, заблуждения о превосходстве формата PDF возникают по двум причинам:

- Пользователям просто не с чем сравнить - постоянно работая с PDF, и не рассматривая для сравнения (качественные) DjVu-файлы, они даже не представляют себе, что, оказывается, "может быть ещё лучше".

- Пользователи формата PDF не работают с ним на программном уровне - а только на уровне использования готовых PDF-программ. Как следствие, от них полностью сокрыты существенные недостатки формата PDF (очевидные PDF-программисту).

Заблуждения о (мнимых) недостатках формата DjVu возникают в основном по следующим причинам:

- Пользователи ошибочно сравнивают достоинства и недостатки векторного PDF и DjVu. Это совершеннейшая подмена понятий и грубейшая ошибка - сравнивать следует исключительно растровый PDF и DjVu.

- Из-за недостаточного качества (имевшихся в недалёком прошлом) программ по работе с форматом DjVu, их недостатки (конкретных DjVu-программ) ошибочно (и по незнанию) переносят на весь формат DjVu в целом.

- Некоторые не разделяют логически этапы сканобработки и (следующий за ним) этап создания DjVu. В этом случае трудности и проблемы этапа сканобработки ошибочно отождествляются с трудностями создания формата DjVu. Данное заблуждение порождается в основном тем фактом, что поклонники формата PDF создают свои PDF-файлы практически напрямую из сырых сканов (либо с минимательными обработками).


2. Мифы о формате DjVu

Давайте перечислим основные мифы о формате DjVu.

Мифы и заблуждения относительно формата DjVu:

1. DjVu даёт плохое качество изображения,  не позволяя в принципе делать электронные книги столь же высокого качества, что и растровый PDF.

2. DjVu "портит картинки" (полутоновые или цветные).

3. DjVu не поддерживает OCR-слой.

4. DjVu ничем не индексируется (по своему тексту).

5. DjVu нельзя "править" (документы DjVu не могут быть изменены после создания).

6. В DjVu нельзя делать свои пометки (типа цветных наклеек с текстом).

7. DjVu сделать неизмеримо более сложно, нежели чем растровый PDF.

8. DjVu не поддерживает защиту данных паролем.

9. DjVu не поддерживает метаданные.

10. DjVu не может хранить в себе произвольные данные (видео-, аудио).

Все эти утверждения являются ошибочными.

В отношении каждого из этих утверждений истинно лишь ровно противоположное утверждение.

Далее мы рассмотрим подробнее и детально опровергнем каждый из этих мифов. Но пока что начнём издалека и рассмотрим в общем и в целом оба формата - PDF и DjVu.


О сравнении свойств PDF и DjVu

Формат PDF был создан в 1991 году корпорацией Adobe. Формат DjVu был создан в 1996 году компанией AT&T.

При попытке сравнить оба формата возникают две не слишком очевидные проблемы. Дело в том, что эти форматы вовсе не идентичны в концептуальном плане - проще  говоря, они были созданы с немного разными целями и для решения не совсем одинаковых задач.

Проблема № 1. Разница в свойствах.

А именно, формат PDF можно условно поделить на 2 подвида: векторный и растровый. В то время как формат DjVu - исключительно растровый (точнее, он нечто среднее между векторным и растровым - но условно его можно считать растровым). Это служит основой распространённой ошибки сравнения PDF и DjVu: когда пытаются сравнить векторный PDF и растровый DjVu - заявляя при этом, что "PDF лучше". Конечно же, векторный PDF несомненно лучше, чем DjVu (и качеством, и размером). Однако это абсолютно некорректное сравнение. Сравнивать следует только лишь растровый PDF и DjVu. К сожалению, многие просто не понимают разницы между векторным и растровым PDF. И, например, начинают доказывать, что делать надо именно векторный PDF - а не растровый.

Следует понимать, что векторный PDF - это всегда есть производное от тех документов, которые изначально появились на свет в электронном виде. Например, научные статьи - их создавали путём ручного набора на компьютере. Другое дело, когда ставится задача оцифровки изначально не-электронного документа (например, бумажной книги). В этом случае создание векторного PDF выглядит как практически нереальная задача (по трудозатратам), поэтому приходится выбирать вариант растрового PDF.

Проблема № 2. Разница в предназначении.

Это самый главный момент. И он же самый тонкий и самый неочевидный.

У форматов PDF и DjVu разная идеология. Формат PDF создавался для печатного воспроизведения документа, а формат DjVu создавался для электронного воспроизведения документа. Другими словами, задача PDF - сделать переносимый вариант электронного документа, который будет одинаково распечатываться на принтере в любом уголке мира. То есть цель PDF - создать бумажную распечатку с электронного документа (гарантированно идентичную на любой платформе, операционной системе и т.п.).

А формат DjVu был создан для того, чтобы наиболее оптимальным образом "превратить" бумажный документ в электронный - и дальше пользоваться уже этим электронным документом с максимальным удобством (никогда не делая из него снова бумажный документ - путём распечатки на принтере). Для этого у DjVu предусмотрено множество специфических свойств (см. далее раздел "Свойства формата DjVu") - отсутствующих, кстати, у PDF. У DjVu нет такой задачи "получить идентичную распечатку на принтере" - которая стоит перед PDF.

Отсюда вытекает естественный вывод:

Для создания электронных версий бумажных книг наиболее оптимально использовать формат DjVu. Ведь он был создан специально для этой цели. И там всё для этого предусмотрено - наиболее оптимальным образом.

А формат растрового PDF лишь "приспособили" для этой задачи. Ведь PDF (и векторный, и растровый) вообще-то создавался совсем не для этого - он был изначально был задуман всего лишь навсего для точного бумажного воспроизведения (на принтере) электронного документа.

Далее в этой статье я буду сравнивать лишь растровый (а не векторный) PDF с DjVu.


Свойства формата "растровый PDF"

ПРЕИМУЩЕСТВА:

1. Известность и популярность

Основным преимуществом PDF перед DjVu является его популярность и широкоизвестность. Формат PDF популярен в мировом масштабе, в то время как формат DjVu известен преимущественно только в Рунете - на Западе о нём почти никто не знает.

2. Открытость стандарта

Формат PDF стандартизован международным комитетом по стандартам ISO (что-то вроде аналога российских ГОСТов). Стандарт формата DjVu управляется исключительно фирмой-владельцем прав на него (в данный момент это Caminova). Поэтому DjVu можно назвать своего рода "закрытым" стандартом - имея в виду его неподвластность общественным интересам (в лице независимых страндартизующих структур - таких как ISO). Забегая вперёд скажу, что это единственный объективный недостаток DjVu по сравнению с PDF.

3. Обилие программ по работе с форматом

Для работы с форматом PDF существует великое множество всевозможных программ - как коммерческих, так и бесплатных. Количество программ по работе с DjVu на порядки меньше. Хотя тут не всё гладко - большинство программ по работе с PDF - платные, бесплатных довольно мало, и их возможности весьма ограничены. Но порой даже и возможности платных PDF-программ ограничены - например, когда нужно подредактировать векторный PDF с кириллическими шрифтами - подробности см. в моей статье Книгосканирование и формат PDF.

НЕДОСТАТКИ:

1. Завышенная сложность внутреннего устройства формата

Формат PDF довольно сложен по своей внутренней структуре. Одна лишь его спецификация занимает более тысячи страниц.

Как следствие, имеется высокая сложность программной работы с форматом PDF, малое количество удобных программных библиотек по работе с форматом, а также неполная поддержка формата практически всеми не-фирменными (не-Adobe) программными библиотеками (!). В частности, известные трудности вызывает даже такая простейшая задача, как декодирование произвольного PDF-файла в формат TIF - подробности см. в моей статье Книгосканирование и формат PDF.

2. Ориентированность на бумажную печать, а не на электронный вид

(В этом пункте речь идёт, по-видимому, всё же о векторном PDF - а не о растровом).

Формат ориентирован в основном на создание бумажных распечаток из PDF-файла. Он и создан был для того, чтобы в любом конце света можно было распечатать PDF-документ на принтере в неизменном виде.

PDF не является электронно-ориентированным форматом. Он плохо масштабируется (особенно на мобильных компьютерах - "мельчит" текст), он "тормозит" при скроллинге (как векторный PDF, так и растровый), он не позволяет открыть недокаченный файл - чтобы открыть PDF, его требуется всегда полностью скачать, поскольку заголовок PDF находится в конце файла. PDF часто порождает проблемы при просмотре его непосредственно в броузере.

Подробнее см. статьи (на эту тему):

НЕ В СВОИ САНИ НЕ САДИСЬ (XML vs PDF).

ADOBE ACROBAT. ЧАСТЬ 1.

PDF: Unfit for Human Consumption (на английском языке).

Avoid PDF for On-Screen Reading (на английском языке).


Свойства формата DjVu

ПРЕИМУЩЕСТВА:

1. Специализированность для электронизации бумажных текстов

DjVu всегда использует 3-слойную сегментацию контента, обеспечивающую оптимальное сжатие. PDF может использовать такую сегментацию лишь опционально - и, как правило, она бывает "криво" реализована. Можно сказать, что растровый PDF был лишь приспособлен для электронизации бумажных текстов - в то время как DjVu был специально создан именно для этого.

2. Ориентированность на электронный вид документа

DjVu изначально создавался как формат, который будет в основном просматриваться на мониторе компьютера - а не распечатываться на принтере (хотя и на принтере он нормально распечатывается). Для этого в DjVu предусмотрен ряд специфических свойств (отсутствующих в PDF):

3. Низкие ресурсные требования

DjVu требует от компьютера гораздо меньше ресурсов, нежели чем растровый PDF. Поэтому DjVu может работать на откровенно слабых переносных компьютерах.

4. Малый размер файла

DjVu обеспечивает минимально возможный размер файла. Как правило, в несколько раз меньший, чем растровый PDF (при сходном качестве). Многие пользователи, особенно сейчас, стали утверждать, что "теперь размер уже не важен", поскольку широко распространился доступный по цене быстрый Интернет. Я считаю, что с этим утверждением нельзя согласиться. Потому что никто не отменял такое понятие, как "экономическая целесообразность". И, если, к примеру, одна и та же коллекция электронных книг в виде растрового PDF требует 5 DVD-дисков для своей записи - а в виде DjVu - только 1 DVD-диск (при том же самом визуальном качестве) - то пусть не говорят, что "это не имеет значения". Кроме того - далеко не везде имеется недорогой, быстрый и неограниченный Интернет.

5. Простота и оптимальность внутренного устройства формата

С DjVu легко работать программно. Многие операции делаются гораздо проще программно, чем они же c растровым форматом PDF (например, склейка страниц).

НЕДОСТАТКИ:

1. Закрытость стандарта

Стандарт DjVu не подавался в ISO для утверждения.

2. Относительная неразвитость программного обеспечения для работы с форматом

Этот недостаток нельзя назвать принципиальным. Почему-то некоторые утверждают, что "формат DjVu плохой, потому что для работы с ним мало программ, а те, что есть, не так удобны, как программы для работы с PDF". Оценивать тот или иной формат лишь по качеству программ для работы с ним - очевидно неправильно. Программы - дело наживное, сегодня их нет, а завтра появятся. Главное - хорош или плох тот или иной формат в принципе. К тому же в настоящее время имеется изрядное количество свободно-бесплатных программ по работе с форматом DjVu (и новые DjVu-программы постоянно появляются).

3. Возможность ошибки "инь" при кодировании в DjVu

Это известная проблема (официально именуемая "transposed letters"), но она сводится практически к нулю при использовании разрешения 600 dpi при создании DjVu (что обеспечивается автоматически при использовании Scan Tailor во время создания DjVu).


Практический пример сравнения форматов "растровый PDF" и DjVu

Рассмотрим один и тот же файл, сделанный в двух форматах: растровый PDF и DjVu. Точнее, изначально этот файл был в растровом формате PDF - я его переделал ещё и в формат DjVu.

Вот этот файл (в 2 форматах):

Пример в формате растровый PDF  (2,34 МБ)

Пример в формате DjVu  (450 КБ)

Давайте, рассматривая этот пример, одновременно разберём подробно ранее перечисленные мифы о формате DjVu.

Миф № 1: DjVu даёт плохое качество изображения,  не позволяя в принципе делать электронные книги столь же высокого качества, что и растровый PDF.

При рассмотрении обоих этих файлов в соответствующих просмотрщиках первое, что бросается в глаза - их практически идентичное визуальное качество. Самый взыскательный наблюдатель вряд ли сумеет на глаз различить, какой из этих двух файлов "хуже" по качеству визуального отображения контента. Это полностью развеивает миф о якобы принципиальной неспособности формата DjVu делать (в нём) качественные электронные книги.

Этот миф, скорее всего, порождён нехваткой/плохим качеством некоторых программ по сканобработке (например, СканКромсатор) - что приводило (и приводит по сей день) к массовому производству недостаточно качественных DjVu-книг.

Второй момент, о котором стоит сказать - это удобство использования. Попробуйте "прокрутить" мышкой в просмотрщике сначала PDF-файл примера - а затем DjVu-файл примера. PDF-файл будет скроллироваться либо "волнами" (в Adobe Acrobat Reader), либо "рывками" (в Foxit PDF Reader). А полутоновое изображение вообще будет "моргать"! (у меня - при прокрутке в Foxit PDF Reader). А вот DjVu-файл примера (в WinDjView) - скроллируется плавно, вообще без каких-либо видимых задержек. Задержки при скроллировании - это источник раздражения пользователя.

Третий интересный момент - это размеры файлов. Обратите внимание: один и тот же файл в DjVu "весит" в 5,5 раз меньше (!), чем он же в формате растровый PDF. И это при идентичном качестве изображения.

Миф № 2: DjVu "портит картинки" (полутоновые или цветные).

В файле-примере присутствует полутоновая иллюстрация (из-за чего он кодировался через DjVu Imager). Однако - в DjVu-версии этого файла нет даже и намёка на какую-либо "порчу картинок". Этот наглядный пример, думаю, полностью уничтожает ещё один миф относительно DjVu (о "порче картинок").

Примечание: Под "порчей картинок" я подразумеваю некорректную автоматическую сегментацию иллюстраций (т.е. ненужное и ошибочное выделение кусочков иллюстрации из заднего фона в маску и передний план DjVu-файла).

Это известнейшая проблема - и она может возникнуть только при использовании стандартных фирменных DjVu-кодировщиков (таких как Document Express Professional, Document Express Enterprise, DjVu Solo и пр. - поскольку они используют автосегментацию во время DjVu-кодирования).

Рис. 1. Пример "порчи картинок"
при DjVu-кодировании
(на базе стандартного
тестового изображения Lenna).

Рис. 1. Пример "порчи картинок" при DjVu-кодировании
(на базе стандартного тестового изображения Lenna).

На рисунке 1 показан пример "порчи картинок" (на примере изображения, обычно используемом в тестовых целях при демонстрации работы алгоритмов растровой графики).

Скачать оригинальное тестовое изображение Лена  (464 КБ)

Скачать DjVu-файл, изображённый на рисунке 1  (5 КБ)

Этот миф, несомненно, родился в процессе использования стандартных фирменных DjVu-кодировщиков. Действительно, они зачастую "портят картинки" (полутоновые и цветные) - и в рамках их использования эта проблема крайне трудно поддаётся решению. Но это есть лишь недостаток этих  кодировщиков (ошибки автоматической сегментации по DjVu-слоям) - а вовсе не формата DjVu в целом (потому что возможна ещё и ручная сегментация, исключающая любую "порчу картинок" - см. DjVu Imager).

Оказывается, DjVu всё-таки прекрасно умеет качественно передавать в аутентичном виде любые исходные бумажные текстовые носители информации (книги, журналы, газеты, и т.п.). Разбор мифов № 1 и 2 это отлично подтверждает.

Разберём подробно оставшиеся мифы о формате DjVu.

Миф № 3: DjVu не поддерживает OCR-слой.

Как известно, это не так. Как раз-таки, формат DjVu предусматривает специальный OCR-слой - которым очень просто программно манипулировать. Существует и довольно популярна программа DjVuOCR - которая позволяет внедрить в DjVu-файл результы его OCR в программе ABBYY FineReader. Фирменные программы от Caminova вообще имеют встроенный Iris OCR - позволяющий распознать и внедрить OCR прямо в DjVu-кодировщике.

Видимо, данный миф возник оттого, что ещё до создания программы DjVuOCR в Сети оказалось множество DjVu-книг без OCR-слоя - вот кто-то и сделал поспешный "вывод" - что якобы "DjVu не поддерживает OCR-слой". Плюс некоторые, по-видимому, и поныне не знают о существовании DjVuOCR.

Пример DjVu-файла со встроенным OCR-слоем смотрите далее на Рис. 2.

Растровый формат PDF также поддерживает возможность встроить OCR - однако использование данного функционала в своей самодельной программе крайне затруднено - ввиду высокой сложности формата PDF.

Миф № 4: DjVu ничем не индексируется (по своему тексту).

DjVu можно проиндексировать рядом программ (имеется в виду создание возможности поиска по ключевым словам по OCR-слоям множества DjVu-книг). Например, dtSearch (плюс iFilter DjVu-плагин к нему), Google Desktop (плюс DjVu-плагин к нему), Archivarius 3000 (признаваемый многими как наилучшее средство индексирования DjVu), Yandex Персональный Поиск - и прочие.

Происхождение этого мифа вызвано, скорее всего незнанием того факта, что многие популярные индексаторы поддерживают индексирование DjVu только через установку в них специализированного DjVu-плагина для них (а по умолчанию там DjVu не поддерживается).

Миф № 5: DjVu нельзя "править" (документы DjVu не могут быть изменены после создания).

Это вообще довольно интересный миф. На самом деле, всё наоборот - DjVu позволяет "править" себя ровно в той же мере, что и растровый PDF. Просто программ, умеющить править готовый DjVu, пока что очень мало - а некоторые варианты правки DjVu пока вообще не реализованы ни в одной программе.

К числу программ, умеющих править готовый DjVu-файл, следует отнести такие, как DjVuOCR, DjVu Imager, DjVu Pal, Document Express Editor - и ряд других. Каждая из этих программ умеет править готовый DjVu-файл по-своему. Document Express Professional - управляет аннотациями, DjVuOCR - OCR-слоем, DjVu Imager - может поменять состав слоёв DjVu, DjVu Pal - умеет менять состав слоя-раскраски DjVu.

Возможно и более глубокое редактирование готового DjVu (пока нереализованное нигде). Например, можно сделать редактор маски DjVu (пока гипотетическая несуществующая программа). Маска DjVu состоит из мелких объектов, именуемых "шейпы" (от англ. "shapes"). Как правило, каждая буква представлена отдельным шейпом. Редактор маски DjVu мог бы произвольно менять состав и количество шейпов - а также их месторасположение на DjVu-странице. Особенно ценной такая возможность была бы для E-Ink-читалок - она позволила бы без перекодирования "форматировать" DjVu под размер экрана конкретного мобильного устройства.

Другое возможное применение редактора маски DjVu - исправление ошибки "инь" прямо в готовом DjVu (путём подмены неправильных шейпов на правильные). Или же снижение размера готового DjVu (за счёт оптимизации словаря разделённых символов маски, ручной замены схожих шейпов на одинаковые).

Конечно же, этот миф был вызван незнанием о программах (или несуществованием их в прошлые времена), умеющих "править" DjVu.

Миф № 6: В DjVu нельзя делать свои пометки (типа цветных наклеек с текстом).

Этот миф был, по всей видимости, порождён людьми, не знакомыми с программой Document Express Editor (другое название - Document Express Professional или Desktop). Эта программа позволяет в визуальном интерактивном режиме сделать аннотации в DjVu-файле - в виде цветных прямоугольников с текстом или гиперссылок разной формы, и пр. В консольном режиме аннотации можно делать бесплатной программой djvused.

Рис. 2. Пример DjVu-файла с аннотациями и
OCR-слоем.

Рис. 2. Пример DjVu-файла с аннотациями и OCR-слоем.


Скачать DjVu-файл, изображённый на рисунке 2  (17 КБ)

На рисунке 2 показан пример DjVu-файла с аннотациями и OCR-слоем (aннотации были сделаны при помощи программы Document Express Editor). Все цветные объекты на рисунке - это аннотации. Аннотации в DjVu (согласно спецификации) могут быть следующих видов:

Также на рисунке 2 показано наличие OCR-слоя в этом DjVu-файле - в виде инвертированного выделения (белые буквы на чёрном фоне). Так выглядит выделение OCR-текста в WinDjView. Произвольно выделенный участок OCR-текста можно, к примеру, скопировать в Буфер Обмена и затем вставить в текстовый файл, скажем, в Блокноте.

Миф № 7: DjVu сделать неизмеримо более сложно, нежели чем растровый PDF.

Это, пожалуй, самый коварный миф. Понять его происхождение было непросто. Как оказалось, причина возникновения этого мифа в том, что люди, сканирующие в растровый PDF, оказывается, просто не занимались облагораживанием сырых сканов (зачастую даже не подозревая о такой возможности) - а напрямую со сканера кодировали сканы в формат растрового PDF (!). Конечно, им создание DjVu показалось "сложнее", чем создание растрового PDF.

Вообще-то проблема сложности создания DjVu (или растрового PDF) полностью выходит за рамки обсуждения 2-х форматов. Это проблема стадии сканобработки - а не стадии сохранения результатов (либо в растровый PDF, либо в DjVu). И решать её нужно такими программами, как ScanKromsator, Scan Tailor и аналогичные - а не DjVu-программами.

Таким образом, сложность создания растрового PDF или DjVu практически одинаковая. Просто те люди, кто привык сканировать в растровый PDF, отродясь не пользовались ни СканКромсатором, ни Скан Тейлором. Взамен они предлагают (в качестве аргумента) при сканировании подбирать порог яркости сканера (и сканировать сразу в чёрно-белое, а страницы с иллюстрациями сканировать повторно в сером режиме (!), а также класть листы на стекло сканера при сканировании без перекоса (чтобы не надо было потом делать Deskew), а необходимые графические обработки сканов после сканирования они предлагают делать в Фотошопе, утверждая, что это "легко". Разумеется, предложенный ими путь плох - поскольку, во-первых, предполагает затраты излишнего количества ручного труда, а во-вторых, при этом ещё и не обеспечивает желаемого качества электронной книги.

Проще говоря - сделать электронную книгу действительно непросто - но это не вина DjVu (и не вина несовершенства DjVu-программ). Это лишь "вина" программ вроде СканКромсатор или Скан Тейлор.

Кстати - при создании растровых PDF-книг можно (и даже нужно) тоже применять либо СканКромсатор, либо Скан Тейлор - также, как и при создании DjVu.

Миф № 8: DjVu не поддерживает защиту данных паролем.

К моему глубокому сожалению, это уже не так. Последняя версия формата DjVu - 27-я - начала поддерживать режим т.н. "SecureDjVu" - позволяющий ограничивать права доступа внутри DjVu (аналогично PDF). Подробнее об этом читайте в моей статье Знакомство с Secure DjVu.

Миф № 9: DjVu не поддерживает метаданные.

Так было раньше - но не сейчас. Теперь формат DjVu официально поддерживает PDF DocInfo-метаданные (в продукте DjVu Shell Extension Pack от компании Caminova (Цитата оттуда: "Now uses PDF DocInfo compatible property names to conform to the djvuchanges.txt."). В будущем весьма вероятно внедрение поддержки XMP- и BibTex -метаданных (уже предложено по установленной процедуре на сайте DjVuLibre). Таким образом, DjVu уже сейчас поддерживает часть метаданных формата PDF (что облегчает их взаимную конверсию). Подробнее см. XMPMetadata for DjVu (на английском языке).

Миф № 10: DjVu не может хранить в себе произвольные данные (видео-, аудио).

В соответствии со спецификацией формата DjVu, DjVu-файл может содержать произвольные чанки (т.е.кусочки содержимого с произвольной текстовой меткой-названием). По стандарту, любой программный DjVu-парсер (просмотрщик) обязан просто игнорировать неизвестные чанки - а значит, можно создать свой самодельный DjVu-просмотрщик с поддержкой самых экзотических чанков - например, внедрённого в DjVu аудио- или видео-контента.


Подведение итогов

Давайте попробуем просуммировать все "за" и "против" в отношении выбора, какой формат использовать - растровый PDF или DjVu. Исходя из всего вышесказанного, можно подытожить следующее.

Если нужно сделать переносимую копию изначально электронного документа - DOC-файла из MS Word, или экселевскую таблицу - то лучше, чем векторный PDF, трудно что-либо придумать. Ведь DjVu вообще не приспособлен для подобного использования. И пытаться разгромно критиковать DjVu в этом случае абсолютно некорректно.

Зато когда речь идёт об оцифровке (как можно меньшей кровью - но одновременно в хорошем качестве) изначально бумажного документа (книги, газеты, журнала и т.п.) - то в этом отношении формату DjVu просто нет равных. DjVu превосходит растровый PDF буквально во всех отношениях - а вовсе не только за счёт меньшего размера (как утверждают многие ортодоксальные апологеты растрового формата PDF). DjVu - проще, изящнее, быстрей и совершенней, чем растровый PDF. Если перейти на язык метафор, то можно сказать, что "DjVu - это молодость и прогресс, а растровый PDF - это старость, и убожество". Формат PDF - это настоящий монстр (в плане нелепой навороченности своей внутренней структуры).

Формат DjVu позволяет создавать электронные книги высочайшего качества - ничем не уступающие (и даже наоборот, превосходящие) растровому PDF (во всех отношениях). Это на самом деле лишь вопрос умения сделать качественную сканобработку (такими программами, как ScanKromsator и Scan Tailor) - ещё до DjVu-кодирования.

Однако, сторонники растрового PDF задают следующий вопрос: "Если DjVu так хорош - то почему же на Западе о нём практически никто не знает, а все там используют только (растровый) PDF?".

Ответ прост - как это часто бывает в нашей жизни, по-настоящему хороший продукт не всегда одерживает верх над посредственным. Всё дело в том, что корпорация Adobe имеет на порядки больше финансовых возможностей - нежели чем владельцы формата DjVu. К примеру, аналогичная ситуация наблюдается с операционной системой Windows - будучи хуже, чем аналогичные продукты конкурентов (по крайней мере, в прошлом), она, тем не менее, сумела завоевать господство на рынке.

Кроме того, владельцы прав на формат DjVu во многом сами виноваты в не-популярности DjVu на Западе. Многие годы они проводили совершенно вялую и аморфную политику на рынке. Начнём с того, что они элементарно зачастую не отвечали на электронные письма (даже известным западным DjVu-деятелям - а не только мне). Потом они производили (и до сих пор производят) нелепые и дурацкие программы по работе с форматом DjVu (сверхдорогие, огромные по размеру, и т.п.). Чего только стоила шизофреническая затея с виртуальным картриджем для всех DjVu-программ (это было несколько лет назад) - проще говоря, они хотели заставить потребителя платить индивидуально за каждую созданную DjVu-страницу! Слава богу, что этот бред давно умер естественной смертью - и теперь коммерческие DjVu-программы активируются просто по вводу серийного номера.

Владельцы DjVu так и не не опубликовали по сей день спецификацию версий DjVu. А ведь это же элементарнейшая вещь - так сказать, азы нормального бизнеса. Как говорится, хоть стой, хоть падай. Да и фирмы-владельцы формата DjVu менялись, как в калейдоскопе - за последние 5 лет. Сначала AT&T, затем LizardTech, потом Celartem, а теперь вот Caminova. Такое впечатление, что они прямо не знают, куда бы им сбагрить этот несчастный формат DjVu. Много лет отсутствовала в свободном доступе пробная версия DjVu SDK (снова появившись лишь недавно - после многолетнего перерыва).

Есть ещё одно существенное обстоятельство: Caminova не предоставляет бесплатный SDK для декодирования DjVu (и правки аннотаций). Этот функционал входит в состав платного DjVu SDK - что, очевидно, сильно сдерживает популяризацию формата DjVu. Когда-то в прошлом один из очередных владельцев DjVu распространял бесплатно с официального сайта легально-бесплатный коммерческий DjVuDecode SDK (для коммерчески-бесплатного DjVu-декодирования - он есть у меня в разделе "DjVu-программы") - но потом, видимо, взяла верх обычная глупая жадность - и DjVu SDK для декодирования убрали с сайта (и теперь даже использовать его легально нельзя - без письменного разрешения от фирмы).

Леон Боту, один из создателей формата DjVu, однажды так выразился о политике компании LizadTech в области DjVu (на тот момент LizadTech владела правами на формат DjVu):

They are cutting the hen that lays the golden eggs.

Что в переводе на русский означает: "Они режут курицу, которая несёт золотые яйца".

К счастью, в Рунете ситуация с форматом DjVu диаметральна противоположна. DjVu переживает у нас бурный рост популярности. Этому не смогло помешать даже нелепое неудобство официальных DjVu-программ - им на замену были сделаны простые и удобные самодельные DjVu-программы - во всех отношениях их превосходящие.

Просто слишком многие в Рунете уже поняли, насколько это замечательная вещь - формат DjVu. И неважно, что его не хотят признавать на Западе - мы-то живём не на Западе (или по крайней мере, активно пользуемся Рунетом), и нас DjVu вполне устраивает - потому что он объективно не просто хорош - а замечателен и великолепен.


Примечание:

Данную статью можно обсудить на форуме здесь (требуется регистрация).


Ссылки (только на тему сравнения PDF и DjVu):

Самые важные:

1. Как сканировать  (Форум сайта JURASSIC.RU) - обсуждение, которое и породило данную статью.

2. FictionBook - библиотека и формат на основе XML (параграф "PDF - подробная критика")

3. НЕ В СВОИ САНИ НЕ САДИСЬ (XML vs PDF) - критика PDF.

4. ADOBE ACROBAT. ЧАСТЬ 1. - критика PDF.

5. PDF: Unfit for Human Consumption - критика PDF (на английском языке).

6. Avoid PDF for On-Screen Reading - критика PDF (на английском языке).

7. DjVu-Digital vs. "Super Hero" PDF - классическое сравнение растрового PDF и DjVu от создателей DjVu.

8. Что за штука... DjVu? - лаконичное и толковое сравнение PDF и DjVu.

Прочие:

9. Очень кратко - об электронных книгах - Написано поклонниками PDF, отвергающими DjVu. С некоторыми заблуждениями относительно DjVu.

10. Цифровой документооборот: DjVu против PDF - Заведомо неправильная и провокационная попытка сравнения векторного PDF и DjVu (тогда как сравнивать можно только растровый PDF и DjVu). Написана явно в рекламных целях. Цифровой документооборот следует делать только на векторном PDF - DjVu вообще для этого не предназначен.

11. DJVU и PDF. Сравнение форматов файлов - Лживо-тенденциозная заметка чисто рекламного характера.

12. Ликбез по DjVu - Кратко о DjVu и его достоинствах.

13. Нужно перевести в формат DjVu документы в форматах PDF, PS и т.п. Конференция iXBT.com (обсуждение на форуме)

14. Поддержка DJV (обсуждение на форуме)

15. PDF -> DJVU !? - Yourline Forum (обсуждение на форуме)

16. PDF vs. DjVu - Rutracker.Org (коротко, но с некоторыми заблуждениями)

17. Про формат DjVu (слишком кратко)

18. Коротко о Де-Жа-Вю (DJVU) (слишком кратко)

19. ADOBE ACROBAT. ЧАСТЬ 2. (малоинтересно).

20. Книгосканирование и формат PDF (моя старая статья. Успела немного устареть.)

21. Slides From A Talk Comparing Djvu To Other Formats

22. DjVu Compression Ratios Compared To Other Formats


Автор: monday2000.

18 октября 2010 г.

E-Mail  (monday2000 [at] yandex.ru)

Hosted by uCoz