Сканирование
Прежде всего нужно четко осознавать: чем
меньше допущено брака при сканировании, тем
меньше потом правки. Сканирование - весьма
важная составляющая процесса, который мы тут
рассматриваем. Текст книги, перед выходом её в
свет, проходил через профессиональную (в
большинстве случаев) корректуру, поэтому
опечаток и пропущенных ошибок в книге мало. Почти
все помарки, ошибки, глюки и зюки поселяются в
тексте после сканирования. И чем лучше настроить
сканер и FineReader перед сканированием, тем
меньше будет ошибок. Здравый смысл нам
подсказывает, что лучше провести час в
подготовке ко сканированию, но сэкономить
три-четыре часа за счёт меньшего объёма правки{1}.
Сначала общие места. Перед тем, как приступить к
довольно продолжительной и нудной операции
сканирования, нужно определиться со следующими
аспектами.
1. Чем сканировать. Я уже долго сканирую не
Файнридером, а другими программами - например,
прилагающимися к сканерам. Сканирую себе в TIF, а
уж потом я могу делать с этими имиджами, что
угодно: заслать их в Файнридер для распознавания,
вырезать картинки, сделать DjVU{2} или PDF etc. Надо определиться, для
чего сканируется книга. Только для
распознавания, или оттуда, помимо текста,
понадобятся какие-нибудь картинки, карты, схемы...
если только для распознавания, то можно и сразу в
Файнридер сканировать, но только в сером (о чём
ниже). А если оттуда нужны картинки, то
сканировать лучше сторонней программой, т.к.
Файнридер картинки портит, сохраняя их в своём
пакете.
Вывод: сканировать лучше не Файнридером.
Лучше другой программой, а имиджи потом загнать в
Файнридер.
2. Яркость. Выставляется в зависимости от
качества бумаги. Имеет смысл
поэкспериментировать с разворотом книги (или с
одной страницей), добиваясь наилучшего качества
распознавания. Принцип тут ясен - чем желтее
(темнее) бумага, тем выше яркость и наоборот.
Особенно важно правильно выставить яркость,
когда вы сканируете в цвете, например
какую-нибудь книжку, в которой полно картинок.
Если нормально выставить яркость, то потом не
надо будет эти картинки дополнительно
обрабатывать. После того, как вы отыскали
яркость, определимся с разрешением.
3. Разрешение. Оптимальное разрешение (без
научных поисков и метаний) при сканировании - 400
dpi. Если вы сканируете не каждый день, допустим, у
вас такое хобби, то примечание ниже можете
игнорировать, ставить 400 точек и - вперёд! И ещё.
Предположим, сканируете вы всё же каждый день, но
при снижении разрешения (ниже 400 dpi) резко
снижается качество распознавания (часто бывает
такое). Значит, у вас пока не выходит найти
хороший баланс между разрешением и настройками
сканера, или сканер плохой, или драйвер сканера
плохой - тогда вы также ставьте 400 точек (и не
ниже). Лучше потерять час на сканировании, чем
потом на правке 2 часа + пучок нервов{3}.
Вы можете снизить разрешение за счет обучения FineReader
какому-то конкретному типу книг. Например, серия
книг издательства <Наука> и серия <Военные
мемуары> <Воениздата> печатались одной и той
же гарнитурой каждая. Нужно создать
мастер-шаблон на серию, если вы собираетесь
сканировать много одинаково полиграфически
исполненных книг.
Разрешение, в общем, зависит от качества каждой
отдельно взятой книги. Есть простейший способ
выявить оптимальное разрешение для определенной
книги. Если программа корректно распознает
"п" и "н"; "о" и "р", "3" и
"З" и "I" и "1" (т.е., не путает их друг
с другом), значит, всё будет хорошо.
Вывод: сканируйте с разрешением 400 dpi и в сером
4. Серый, цветной или чёрно-белый.
Давным-давно, когда винчестеры были маленькими,
распознавать в цвете, или в сером (Greyscale) могли
позволить себе немногие. Или многие, но немного. А
теперь... Книга обычного формата, страниц эдак в
400, сканируется разворотом, получается 200 сканов
по 7-8 Мб -- всего гигабайта на полтора. Это - тьфу,
по нынешним временам. Я, например, сканирую уже
давно только в сером (а если надо, в цвете),
независимо, есть в книге изображения, или нет.
Для чего сканировать в сером? Я вижу 3 важных
причины:
1) не нужно отдельно сканировать картинки;
2) не будет на полях и на сгибах чёрных
прямоугольников, часто порождаемых недорогими
сканерами при сканировании в режиме LineArt (ч/б).
3) качество распознавания в сером намного выше,
чем в чёрно-белом, в т.ч. в области сгиба разворота
страниц;
Правда в сером сканировать дольше, чем в ч/б. Но
однозначен общий выигрыш во времени за счёт
более высокого качества исходного материала и,
соответственно, меньшего времени на последующую
обработку.
Тем не менее, если в книге нет картинок, или они
сгруппированы во вклейках, можно сканировать и в
ч/б , если вас не пугают артефакты (те самые
ужасные чёрные прямоугольники).
Год назад я написал: <Сканирование же в цвете
пока настолько неактуально, что мы вернёмся к
нему, когда наступит Золотой век>. Ну вот и
наступил Золотой век!{4} В общем, в цвете я сканирую, когда
много цветных картинок в тексте (другой причины
даже не могу и придумать-то). Сканирует ещё
дольше, чем в сером, один имидж (А4) занимает от 17
до 22 Mb, т.е. книжка страниц в 400 будет весить
гигабайт 5, что не так уж и много. Но, всё же, не так
уж часто приходится сканировать такие книги.
Вывод: сканируйте в сером
5. Область сканирования и сгиб. Обычно
область сканирования - это разворот книги. Если
настроить область сканирования так, чтобы в неё
попадали только страницы книги, но не
внутренность крышки сканера (или космический
мрак, если сканируете с открытой крышкой), то и
время сканирования уменьшится, и качество будет
гораздо выше.
Крышка при сканировании мешает. Есть сканеры,
где крышка снимается, есть такие, где она
отламывается нафиг. Без крышки тоже можно
замечательным образом сканировать, это повышает
производительность труда и экономит силы
оператора{5}.
Некоторые книги не хотят разворачиваться. И
крышка сканера недостаточно тяжела, чтобы
прижать книгу как следует. Нужно взять
<Энциклопедию танков> или что-то в этом роде.
Но прижимать зачастую надо - лучше потратить 5
секунд на это. Чем потом полчаса - на лишнюю
правку или пересканирование.
Но! (Всегда в этой жизни для нас найдётся
хотя бы одно <но>, друзья мои...) Не делайте из
прижимания культа! Не кладите на книгу увесистые
гантели. Во-первых есть риск не рассчитать размах
и проломить стекло сканера, а во-вторых - тратится
много времени. Корректное сканирование
потаённых уголков, то бишь, области при сгибе
книги, зависит от глубины резкости сканера.
Старые сканеры, с <горячими> лампами, и
большинство новых, с <холодными>, просвечивают
мрак нормально. А вот новые, плоские (типа CanoScan),
толщиной в 5 см - практически безнадёжны. Деньги
на ветер, любые книги ими не посканируешь. В
общем, глубины сканирования в 5-6 см хватит для
того, чтобы особо не прижимать книгу, а просто
тщательней (но аккуратно!) её раскрывать.
Следующий этап - распознавание
текста.
--------
{1} На ум приходит аналогия с
проворачиванием мяса (это, скорее всего из-за
приближающегося Нового года) в мясорубке с целью
приготовления фарша (с целью приготовления
котлет, надо полагать): в первом случае, если ножи
тупые, то работать можно, но неудобно и долго - а
вот во втором случае, насладившись
десятиминутной точкой мясорубочных ножей, можно
потом ещё получить небывалое удовольствие от
процесса мясопроворачивания - и всё это вместе
отнимет меньше времени и сил, чем в первом случае.
Уф... не очень уклюжая метафора вышла из-под моего
пера, но уж зато сочная...
{2} Это не всегда возможно , потому что
в некоторых случаях при сканировании границы
текстовых полей получаются неровными, да и может
возникнуть необходимость использовать книгу не
разворотами, а отдельными страницами... да мало
ли.
{3} За счёт снижения разрешения можно
сократить время сканирования. Но тогда вам
(возможно) придется потратить лишнее время на
правку. Всё зависит от качества печати и бумаги. Я
сканировал некоторые книги с разрешением в 250 dpi
(хотя FineReader и ругается), и качество
распознавания было не ниже, чем при 400 dpi. А
времени уходило меньше.
{4} Возрадуйтесь, сестрие и братие!
Поставьте себе харды по 160 гигов, и сканируйте
себе на здоровье.
{5} При поточном сканировании,
естественно.
^ |