Вернуться к разделу "Материалы по сканированию и оцифровке бумажных книг".


Сканер и формат RAW

Введение

Формат RAW - это специальный "технический" графический формат, применяемый для непосредственной записи сигналов, получаемых матрицей оптических сенсоров цифрового фотоаппарата или сканера.

Другими словами, формат RAW - это "карта показаний" или "информационный слепок с" этих сенсоров.

Это совсем не то же самое, что и изображение, которое мы получаем в результате работы цифрового фотоаппарата или сканера. Всё дело в том, что оптические сенсоры в воспринимающей матрице не способны воспринимать сигнал в цвете - а только в чёрно-белом виде. Точнее, они могут воспринимать только лишь интенсивность оптического сигнала (но не его цветность) - чем она выше, тем больше электронов будет выбито из данного датчика.

Чтобы "заставить" матрицу чёрно-белых датчиков воспринимать цвет, конструкторы пошли на дополнительные ухищрения. Стандартным способом решения этой проблемы стало применение т.н. Байеровского фильтра - мозаичного светофильтра, состоящего из квадратиков 3 базовых цветов (красный, синий, зелёный), покрывающего матрицу оптических сенсоров. Число зелёных квадратиков вдвое больше, чем синих и красных - т.к. человеческий глаз наиболее чувствителен к зелёному цвету.

Фотографируемое изображение проходит через Байеровский фильтр и попадает на матрицу сенсоров. При этом каждая GRGB-четвёрка ячеек Байеровского фильтра преобразует падающий на неё свет в красный, синий и зелёный каналы некоей микроокрестности фотографируемого изображения, а лежащие под ней четыре оптических сенсора измеряют интенсивность света этих 3 цветовых каналов.

Рис.1. Принцип работы Байеровского фильтра

В результате получается специфическое цветное мозаичное изображение - пока ещё не пригодное к прямому использованию. Для того, чтобы получить из него обычное RGB-изображение, его подвергают т.н. дебайеризации (более удачен соответствующий англоязычный термин - de-mosaicing - "обезмозаичивание"). Эту процедуру можно условно назвать "Преобразование RAW->RGB" (под RGB понимаются такие форматы, как BMP, TIF, JPG, GIF и т.п.).

Дебайеризация - это, в сущности, понижающий ресемплинг с интерполяцией "4 в 1" (с применением дополнительных патентованных ухищрений, отличающихся у разных производителей). При этом неизбежно происходит некоторое (небольшое) ухудшение качества исходного RAW-изображения.

ВАЖНО: Следует отметить, что при конвертации RAW->RGB параметрами этого преобразования выступают выбранные пользователем текущие значения яркости, контраста, гаммы, и т.п. По этой причине формат RAW часто называют "цифровой негатив" - в зависимости от значений параметров в результате преобразования можно получить довольно различные по качеству изображения (поэтому конвертацию RAW->RGB также называют "цифровая проявка").

В простых моделях "цифровая проявка" осуществляется внутри фотоаппарата, но многие профессиональные цифровые фотокамеры предусматривают возможность выдачи пользователю фотографии непосредственно в формате RAW - для последующей обработки на компьютере. Это даёт значительно более широкие возможности "цифровой проявки" "сложных" фотоизображений, где важно точно передать слабые оттенки цвета, яркости и т.п.

Байеровский фильтр - это лишь основной базовый способ придания цветности матрице оптических сенсоров. Есть и другие способы: многослойная матрица с избирательной пропускной цветовой способностью (Foreon), фильтр с дополнительным цветом, или с ячейками ромбовидной формы, а также с трёхматричная система с цветоразделяющими призмами. В Интернете имеются обширные источники информации на эту тему.

Формат RAW не стандартизован - поэтому каждый производитель использует свой подформат с собственным расширением файла - например, dng, crw, cr2, и т.д. Это порождает определённые проблемы с появлением удобных программ-конверторов RAW->RGB. Кроме "информационного слепка" с датчиков камеры, формат RAW также хранит топологическую карту датчиков и некоторую метаинформацию о снимках и фотоаппарате.

Более подробно о RAW-формате смотрите в следующих статьях:

Работа с RAW файлами (отличная заметка; рекомендуется к прочтению)

Формат RAW - Статья в русскоязычной Википедии

Сырой формат RAW

Понимание RAW

Обзор графических форматов: TIFF, RAW, JPG

Формат RAW в сканерах

Сканеры также, как и цифровые фотоаппараты, используют формат RAW для хранения изображения, полученного непосредственно с матрицы сканера. Просто эта возможность относительно малоизвестна и редко используется.

Для получения RAW-изображений со сканера под Windows можно использовать коммерческие программы VueScan и SilverFast HDR. Программа SilverFast HDR относительно экзотична, и но на англоязычном сайте компании SilverFast доступна её trial-версия. Программу VueScan также можно скачать в виде пробной версии с сайта производителя, но из-за того, что её поддерживает один человек, с ней нередко возникают проблемы в виде всяких багов, глюков и "тормозов" разной степени тяжести.

Обе эти программы не используют TWAIN-драйвер сканера - а используют свои собственные драйвера для каждого конкретного сканера. Поэтому обе программы имеют список поддерживаемых сканеров - у VueScan он побольше, у SilverFast - поменьше.

В отличие от цифровых фотоаппаратов, в сканерах используется не мозаичная, а линейная матрица оптических сенсоров. Однако, формируемое в результате RAW-изображение также носит мозаичный характер и также нуждается в конвертации RAW->RGB, как и для случая цифровых фотоаппаратов. Единственная разница может быть  в том, что RAW-изображение, полученное сканером, возможно, имеет специфическую топологию, отличающуюся от топологии RAW-изображения у цифрового фотоаппарата. Тут можно привести некую аналогию с автотранспортом: автобус, грузовик и легковой автомобиль не могут оставлять на мокрой земле колейные следы с идентичным рисунком колёсных протекторов.

В результате для сканеров может потребоваться своя, специфическая программа для конвертации RAW->RGB.

Для понимания принципов формирования RAW-изображения у сканеров рассмотрим принципиальные схемы устройства бытовых планшетных сканеров.

ПЗС-сканеры (CCD)

Такие сканеры используют принцип датчиков "Прибор с зарядовой связью" ("ПЗС" или "CCD" по-английски).

Изображение сканируется полосками ("скан-линиями") - за счёт перемещения сканирующей головки шаговым двигателем. Каждая скан-линия отражается в системе 3-х (или более) выпуклых зеркал, каждое из которых слегка уменьшает её изображение, и затем это изображение проходит через фокусирующую линзу, после которой разделяется призмой на 3 цветовые компоненты (красный, зелёный, синий). Далее каждая цветовая компонента пропускается через свой светофильтр и попадает на соответствующий ряд 3-рядной CCD-матрицы. Общий коэффициент уменьшения изображения скан-линии при этом в среднем составляет как минимум 5:1. CCD-матрица регистрирует (разложенное по 3 цветам) изображение скан-линии, генерирует на его основе аналоговый сигнал, и этот сигнал передаётся далее на АЦП для оцифровки и передачи в компьютер.

Рис.2. Схема работы датчиков ПЗС-сканера (CCD)

Более подробно схему работы CCD-сканера смотрите в статье: Как устроены и работают сканеры.


Рис.3. Схема работы ПЗС-сканера (CCD)

КМОП-сканеры (CIS)

Такие сканеры используют принцип датчиков "Контактный датчик изображения" (КМОП).

Как и в случае с ПЗС-сканерами, изображение также сканируется полосками ("скан-линиями") - на каждом шаге работы шагового двигателя.

Но, в отличие от CCD, у CIS-сканеров линейка светочувствительных датчиков простирается на всю ширину изображения, и при этом максимально плотно прилегает снизу к стеклу сканера (отсюда и название технологии). Сканирование осуществляется по принципу "один-к-одному" - каждый датчик в линейке создаёт один пиксель будущего изображения.

Головка CIS-сканеров состоит из максимально близко расположенных друг к другу элементов подсветки и датчиков регистрации. Подсветка обеспечивается 3-мя параллельными рядами светодиодов (LED), которые быстро попеременно переключаются при работе, подсвечивая одну и ту же скан-линию последовательно красным, зелёным, синим цветом. Отражённый сигнал попадает на линейку самофокусирующихся столбатых микролинз (каждая линза обеспечивает сканирование лишь малой части области оригинала, соответствующей одному пикселу изображения), и падает на линейку светочувствительных CIS-датчиков, которые расположены прямо под линзами.

Рис.4. Схема работы датчиков КМОП-сканера (CIS)

Каждому датчику соответствует своя микролинза. При этом чем меньшее расстояние между соседними сенсорами, тем выше оптическое разрешение сканера.

Таким образом, в CIS-сканерах полностью отсутствует оптическая система (зеркала, призма, объектив), что значительно упрощает и удешевляет их.

Более подробно схему работы CIS-сканера смотрите в статье: iXBT: CanoScan FB620U - USB сканер с технологией Contact Image Sensor.


Canon LIDE-сканеры

Технология LiDE (LED InDirect Exposure) от Canon - это особенный подвид CIS-сканеров. Их устройство отличается от обычных CIS-сканеров.

Основное отличие состоит в том, что в LIDE-CIS-сканерах используется специальный световод в виде прозрачного фигурного бруска, равномерно распределяющего свет от линейки 3-цветных подсвечивающих светодиодов (в обычных CIS-сканерах стоят 3 линейки подсветки - с одноцветными светодиодами в каждой линейке - и нет никакого световода). Между светодиодами и световодом стоят призмы.

Рис.5. Схема работы специального световода Canon LIDE CIS-сканера

Также, как и в случае обычных CIS-сканеров, подсвечивающие светодиоды LIDE-CIS-сканеров быстро попеременно переключают свой режим горения, подсвечивая скан-линию то красным, то зелёным, то синим цветом. Линейка "чёрно-белых" датчиков фиксирует отражённый свет точно так же, как и у обычных CIS-сканеров.

В технологии LIDE применяются мощные трехцветные светодиоды, обеспечивающие улучшенную цветопередачу и малое энергопотребление, а также новое поколение датчиков изображения, отличающиеся значительной величиной отношения "сигнал/шум" и сверхвысокой чувствительностью по сравнению с любыми другими существующими сенсорами: 42 бита = 14 бит x 3 цвета RGB (по 14 бит на цвет, в новых моделях - по 16-ти). Такое повышение разрядности данных на входе даёт сканеру возможность различать больше цветовых градаций в самых светлых и самых тёмных участках изображения.

До недавнего времени у многих устройств такого рода данное значение не превышало 24 бит (на выходе с помощью различных алгоритмов происходила «интерполяция» глубины цвета вплоть до 48). Таким образом, сканеры LIDE уже позволяют получать изображения не только для просмотра на дисплее компьютера или печати на струйном принтере, но и для полиграфии.

Официальное описание технологии LIDE (увы, крайне скудное) можно найти на сайте Canon.

На основе технологии LIDE Canon выпустил уже целую линейку планшетных LIDE-сканеров.


Сравнение CIS и CCD

Как известно, для сканирования книг подходят только исключительно лишь CCD-сканеры. У CIS-сканеров совершенно малая глубина резкости. Подробнее смотрите в статье: Наглядное сравнение сканеров CCD и CIS при сканировании книг. Кратко перечислим ещё раз достоинства и недостатки CIS и CCD-сканеров:

Достоинства CCD:

1. В отличие от CIS, CCD-сканеры имеют хорошую глубину резкости.

2. CCD-сканеры обеспечивают больший динамический диапазон, чем CIS, поэтому пользователь CCD-сканеров получит более детализированное изображение затененных участков оригинала.

Недостатки CCD:

1. CCD-сканеры дороже, чем CIS-сканеры, т.к. у них более сложная и капризная конструкция.

2. Лампы CCD-сканеров требуют времени на прогревание.

Достоинства CIS:

1. Близость контактных датчиков к изображению помогает уменьшить до минимуму оптические искажения и хроматическую аберрацию (геометрическая "нестыковка" 3-х цветовых компонентов), неизбежные в CCD-сканерах. CIS-сканеры известны своей способностью воспринимать мелкие детали изображения очень чётко и ясно.

2. Конструкция CIS-сканера проще, чем у CCD-сканера - отпадает необходимость в оптической системе и зеркалах. Поэтому CIS-сканеры дешевле, тоньше и легче, чем CCD-сканеры.

3. CIS-сканеры имеют более низкое энергопотребление, чем CCD-сканеры (иногда даже питаются через USB).

Недостатки CIS:

1. CIS-сканеры сканируют медленнее, чем CCD, глубина резкости и цветопередача у них хуже. Особенно заметны недостатки CIS-сканеров при сканировании книг, когда часть бумаги с текстом не прилегает вплотную к стеклу.

2. Величина динамического диапазона CIS-сканера зависит от качества спектра излучения красного, зелёного и синего цвета подсвечивающих светодиодов (а у CCD-сканеров этот диапазон зависит от качества 3 цветовых фильтров). Но технологии обеспечения качественного спектра излучения светодиодов ещё не настолько развиты, как технологии качественной цветофильтрации у цветовых фильтров - поэтому динамический диапазон CIS-сканеров уступает динамическому диапазону CCD-сканеров.

Вывод:

Несмотря на то, что технология CIS моложе и имеет некоторые перспективы, такие устройства пока ещё не могут соперничать с CCD-сканерами.

Схема CCD-сканера

Схема CIS-сканера

Рис.6. Схематические сравнения принципов действия CCD- и CIS-сканеров


Информация от Эда Хамрика, автора программы VueScan

Как мы уже выяснили, наиболее простым, доступным и чуть ли не единственным способом получения RAW-изображений под Windows выступает программа VueScan. Я связался с её автором Эдом Хамриком и задал ему несколько вопросов об устройстве бытовых сканеров и о формате RAW:

1. Где именно в бытовых сканерах осуществляется преобразование "RAW -> RGB" - внутри сканера или внутри компьютера?

У сканеров отсутствует мозаичная ПЗС-матрица (как у цифровых фотоаппаратов) - они используют линейную ПЗС-матрицу - с одной линией на цвет (иногда две линии на цвет). У некоторых сканеров это преобразование (из линейного ПЗС-формата в формат "3 цвета на пиксель") делается внутри сканера, а у некоторых это делается внутри VueScan.

2. Имеют ли бытовые сканеры встроенные микропроцессоры?

Да, все сканеры содержат микропроцессоры, иногда это совмещённые с АЦП микропроцессоры, иногда это микропроцессоры общего вида.

3. Можно ли получить RAW-информацию с любого бытового сканера?

Да, обычно VueScan может получить RAW-информацию прямо с ПЗС-матрицы большинства обычных сканеров.

4. Есть ли какая-то возможность влиять на параметры и качество RAW-информации, получаемой со сканера?

Да, обычно есть множество аппаратных настроек, влияющих на качество выдаваемой сканером RAW-информации, особенно время экспозиции ПЗС-матрицы, и уровни калибровки белого и чёрного.

5. Какие задачи выполняет микропроцессор сканера?

Микропроцессор сканера делает множество вещей, в зависимости от вида сканера. В том числе и конвертацию "RAW -> RGB" - если данный сканер относится к типу "внутренней RAW-конвертации" (а ещё есть, как уже было сказано, тип сканеров "внешней RAW-конвертации" - тогда это выполняет VueScan). В общем, у каждого сканера по-разному.


Заключение

Возможность "сканировать в RAW" теоретически весьма привлекательна. Ведь это позволяет не задумываться о правильности выбора (в драйвере сканера) параметров яркости, контраста, гаммы и т.п. до сканирования - все эти параметры можно подобрать уже после сканирования, на этапе "цифровой проявки".

Сейчас же большинство людей сканируют книги в какой-либо RGB-формат с установками яркости, контраста, гаммы по-умолчанию. Тогда как теоретически можно подбирать (в этом случае) оптимальные значения этих параметров чуть ли не для каждой отдельной страницы сканируемой книги - как один из способов избежать "пересвеченных" и "недосвеченных" сканов (и т.п). Борьба с "пересвеченными" и "недосвеченными" сканами сейчас осуществляется на этапе пост-обработки - и не исключено, что это не самая лучшая идея (хотя это и даёт вполне удовлетворительные результаты).

У меня сканер Epson Perfection 1270. К сожалению, он не поддерживается ни программой VueScan (на деле), ни программой SilverFast HDR (официально).

Точнее сказать, эта модель присутствует в списке поддерживаемых сканеров на сайте VueScan - но на самом деле программа (версия 8.4.54) с ним не работает - при её запуске (когда сканер включён) появляется окно заставки (splash-screen) и программа "зависает". Более старая версия (8.2.05) успешно запускается при включённом сканере - но сканирует лишь в чёрно-белом режиме ("Input -> Media -> B/W Photo") - во всех остальных режимах (в т.ч. цветном) программа начинает сканировать, но сразу же после теста самокалибровки "зависает" (самокалибровка есть у каждого CCD-сканера - она корректирует чувствительность датчиков из-за "старения" и "выцветания" лампы подсветки - путём сканирования цветовой мишени, наклееной изнутри на корпус сканера).

Предположительная причина этой проблемы: возможно, VueScan некорректно работает с "цветной"   самокалибровкой - т.е. в случае цветного сканирования.

Схожая проблема с Epson Perfection 1270 под Linux SANE описана здесь.

Я подробно сообщил автору программы обо всех этих проблемах - будем надеяться, что он захочет и сможет их исправить в будущем. Вопрос, к сожалению, осложняется тем, что Epson Perfection 1270 уже снят с производства фирмой Epson.

Что касается SilverFast HDR - то Epson Perfection 1270 отсутствует в её списке поддерживаемых моделей сканеров.

По этим причинам я лишён возможности опробовать на практике работу с RAW-файлами, полученными от бытового сканера.

Насколько я понимаю, иных способов получения RAW-файлов от сканера под Windows (кроме VueScan и SilverFast HDR) нет. TWAIN-драйвера обычных сканеров, по моим сведениям, не имеют какой-либо опции "RAW". Они лишь в лучшем случае дают возможность сканировать в формате 48-бит - но не факт, что это то же самое, что и "настоящий" RAW.

Предоставляет ли спецификация TWAIN такую возможность сама по себе - неизвестно (без её прочтения - это потребовало бы лишнего времени).

Бесплатная платформа сканирования XSane (Windows-порт широко известной Linux-системы сканирования SANE), по-видимому, также не позволяет получать от сканера RAW-файлы - как я понял из ответа Oliver Rauch, автора проекта.

Есть ещё менее известный проект SaneTwain - с его автором мне пока не удалось связаться - автоответик в его почтовом ящике пишет, что "я в отпуске до конца марта".

Также есть новый Windows-стандарт сканирования WIA - Windows Image Acquisition - про который вообще пока довольно мало известно.

Мне лишь удалось выяснить, что при работе с RAW-файлами лучше по-возможности избегать файлов с расширением *.raw - т.к, например, в Adobe PhotoShop это расширение означает совершенно другое понятие.

Также я случайно обнаружил информацию о том, что VueScan RAW-файлы - это на самом деле... TIF-файлы. Возможно, речь идёт о том, VueScan использует формат TIF-файла в качестве контейнера для RAW-информации.

Тема сканирования в формат RAW нуждается в дальнейшей широкой проработке и развитии.


Ссылки

Сканеры в цифровой фотографии CCD technology CCD- и CIS-технологии
Недорогие планшетные сканеры Сканеры LED InDirect Explosure
Цифровая трансформация Анатомия Сканеров CCD scanner internals
Анатомия сканера: советы покупателю Анатомия цифрового фотоаппарата: сенсоры
Экспресс-тест трех популярных сканеров VueScan - программа для продвинутого сканирования
Сканирование - переводчики из «аналога» в «цифру» 1 Эволюция в технологиях широкоформатного сканирования, или Килограммы против качества

Избранные ссылки

Анатомия сканера: взгляд изнутри (Ф-Центр)

How Scanners Work

CMOS, CCD и другие звери

Цифра за цифрой

iXBT: CanoScan FB620U - USB сканер с технологией Contact Image Sensor

Как устроены и работают сканеры

Наглядное сравнение сканеров CCD и CIS при сканировании книг


Автор: monday2000.

17 января 2008 г.

E-Mail  (monday2000 [at] yandex.ru)

Hosted by uCoz