ВОЕННАЯ ЛИТЕРАТУРА -- Как делать

Как делать

militera

Сканирование

Прежде всего нужно четко осознавать: чем меньше допущено брака при сканировании, тем меньше потом правки. Сканирование - весьма важная составляющая процесса, который мы тут рассматриваем. Текст книги, перед выходом её в свет, проходил через профессиональную (в большинстве случаев) корректуру, поэтому опечаток и пропущенных ошибок в книге мало. Почти все помарки, ошибки, глюки и зюки поселяются в тексте после сканирования. И чем лучше настроить сканер и FineReader перед сканированием, тем меньше будет ошибок. Здравый смысл нам подсказывает, что лучше провести час в подготовке ко сканированию, но сэкономить три-четыре часа за счёт меньшего объёма правки {1}.

Сначала общие места. Перед тем, как приступить к довольно продолжительной и нудной операции сканирования, нужно определиться со следующими аспектами.

1. Чем сканировать. Я уже долго сканирую не Файнридером, а другими программами - например, прилагающимися к сканерам. Сканирую себе в TIF, а уж потом я могу делать с этими имиджами, что угодно: заслать их в Файнридер для распознавания, вырезать картинки, сделать DjVU {2} или PDF etc. Надо определиться, для чего сканируется книга. Только для распознавания, или оттуда, помимо текста, понадобятся какие-нибудь картинки, карты, схемы... если только для распознавания, то можно и сразу в Файнридер сканировать, но только в сером (о чём ниже). А если оттуда нужны картинки, то сканировать лучше сторонней программой, т.к. Файнридер картинки портит, сохраняя их в своём пакете.

Вывод: сканировать лучше не Файнридером. Лучше другой программой, а имиджи потом загнать в Файнридер.

2. Яркость. Выставляется в зависимости от качества бумаги. Имеет смысл поэкспериментировать с разворотом книги (или с одной страницей), добиваясь наилучшего качества распознавания. Принцип тут ясен - чем желтее (темнее) бумага, тем выше яркость и наоборот. Особенно важно правильно выставить яркость, когда вы сканируете в цвете, например какую-нибудь книжку, в которой полно картинок. Если нормально выставить яркость, то потом не надо будет эти картинки дополнительно обрабатывать. После того, как вы отыскали яркость, определимся с разрешением.

3. Разрешение. Оптимальное разрешение (без научных поисков и метаний) при сканировании - 400 dpi. Если вы сканируете не каждый день, допустим, у вас такое хобби, то примечание ниже можете игнорировать, ставить 400 точек и - вперёд! И ещё. Предположим, сканируете вы всё же каждый день, но при снижении разрешения (ниже 400 dpi) резко снижается качество распознавания (часто бывает такое). Значит, у вас пока не выходит найти хороший баланс между разрешением и настройками сканера, или сканер плохой, или драйвер сканера плохой - тогда вы также ставьте 400 точек (и не ниже). Лучше потерять час на сканировании, чем потом на правке 2 часа + пучок нервов {3}.

Вы можете снизить разрешение за счет обучения FineReader какому-то конкретному типу книг. Например, серия книг издательства <Наука> и серия <Военные мемуары> <Воениздата> печатались одной и той же гарнитурой каждая. Нужно создать мастер-шаблон на серию, если вы собираетесь сканировать много одинаково полиграфически исполненных книг.

Разрешение, в общем, зависит от качества каждой отдельно взятой книги. Есть простейший способ выявить оптимальное разрешение для определенной книги. Если программа корректно распознает "п" и "н"; "о" и "р", "3" и "З" и "I" и "1" (т.е., не путает их друг с другом), значит, всё будет хорошо.

Вывод: сканируйте с разрешением 400 dpi и в сером

4. Серый, цветной или чёрно-белый. Давным-давно, когда винчестеры были маленькими, распознавать в цвете, или в сером (Greyscale) могли позволить себе немногие. Или многие, но немного. А теперь... Книга обычного формата, страниц эдак в 400, сканируется разворотом, получается 200 сканов по 7-8 Мб -- всего гигабайта на полтора. Это - тьфу, по нынешним временам. Я, например, сканирую уже давно только в сером (а если надо, в цвете), независимо, есть в книге изображения, или нет.

Для чего сканировать в сером? Я вижу 3 важных причины:

1) не нужно отдельно сканировать картинки;

2) не будет на полях и на сгибах чёрных прямоугольников, часто порождаемых недорогими сканерами при сканировании в режиме LineArt (ч/б).

3) качество распознавания в сером намного выше, чем в чёрно-белом, в т.ч. в области сгиба разворота страниц;

Правда в сером сканировать дольше, чем в ч/б. Но однозначен общий выигрыш во времени за счёт более высокого качества исходного материала и, соответственно, меньшего времени на последующую обработку.

Тем не менее, если в книге нет картинок, или они сгруппированы во вклейках, можно сканировать и в ч/б , если вас не пугают артефакты (те самые ужасные чёрные прямоугольники).

Год назад я написал: <Сканирование же в цвете пока настолько неактуально, что мы вернёмся к нему, когда наступит Золотой век>. Ну вот и наступил Золотой век!{4} В общем, в цвете я сканирую, когда много цветных картинок в тексте (другой причины даже не могу и придумать-то). Сканирует ещё дольше, чем в сером, один имидж (А4) занимает от 17 до 22 Mb, т.е. книжка страниц в 400 будет весить гигабайт 5, что не так уж и много. Но, всё же, не так уж часто приходится сканировать такие книги.

Вывод: сканируйте в сером

5. Область сканирования и сгиб. Обычно область сканирования - это разворот книги. Если настроить область сканирования так, чтобы в неё попадали только страницы книги, но не внутренность крышки сканера (или космический мрак, если сканируете с открытой крышкой), то и время сканирования уменьшится, и качество будет гораздо выше.

Крышка при сканировании мешает. Есть сканеры, где крышка снимается, есть такие, где она отламывается нафиг. Без крышки тоже можно замечательным образом сканировать, это повышает производительность труда и экономит силы оператора {5}.

Некоторые книги не хотят разворачиваться. И крышка сканера недостаточно тяжела, чтобы прижать книгу как следует. Нужно взять <Энциклопедию танков> или что-то в этом роде. Но прижимать зачастую надо - лучше потратить 5 секунд на это. Чем потом полчаса - на лишнюю правку или пересканирование.

Но! (Всегда в этой жизни для нас найдётся хотя бы одно <но>, друзья мои...) Не делайте из прижимания культа! Не кладите на книгу увесистые гантели. Во-первых есть риск не рассчитать размах и проломить стекло сканера, а во-вторых - тратится много времени. Корректное сканирование потаённых уголков, то бишь, области при сгибе книги, зависит от глубины резкости сканера. Старые сканеры, с <горячими> лампами, и большинство новых, с <холодными>, просвечивают мрак нормально. А вот новые, плоские (типа CanoScan), толщиной в 5 см - практически безнадёжны. Деньги на ветер, любые книги ими не посканируешь. В общем, глубины сканирования в 5-6 см хватит для того, чтобы особо не прижимать книгу, а просто тщательней (но аккуратно!) её раскрывать.

Следующий этап - распознавание текста.

--------

{1} На ум приходит аналогия с проворачиванием мяса (это, скорее всего из-за приближающегося Нового года) в мясорубке с целью приготовления фарша (с целью приготовления котлет, надо полагать): в первом случае, если ножи тупые, то работать можно, но неудобно и долго - а вот во втором случае, насладившись десятиминутной точкой мясорубочных ножей, можно потом ещё получить небывалое удовольствие от процесса мясопроворачивания - и всё это вместе отнимет меньше времени и сил, чем в первом случае. Уф... не очень уклюжая метафора вышла из-под моего пера, но уж зато сочная...

{2} Это не всегда возможно , потому что в некоторых случаях при сканировании границы текстовых полей получаются неровными, да и может возникнуть необходимость использовать книгу не разворотами, а отдельными страницами... да мало ли.

{3} За счёт снижения разрешения можно сократить время сканирования. Но тогда вам (возможно) придется потратить лишнее время на правку. Всё зависит от качества печати и бумаги. Я сканировал некоторые книги с разрешением в 250 dpi (хотя FineReader и ругается), и качество распознавания было не ниже, чем при 400 dpi. А времени уходило меньше.

{4} Возрадуйтесь, сестрие и братие! Поставьте себе харды по 160 гигов, и сканируйте себе на здоровье.

{5} При поточном сканировании, естественно.

Cайт сделал Hoaxer в марте 2001 г. Переделал 5 февраля 2002 г. Доделал 5 октября 2002 г. Обновил оболочку и структуру: 3.I.2004.

Источник: http://militera.lib.ru/ocr/01.html