Сканирование документов: какие программы выбрать? Требования к сканам документов.

BMP (от англ. Bitmap Picture) - формат хранения растровых изображений, разработанный компанией Microsoft. Файлы формата BMP могут иметь расширения.bmp, .dib и.rle.

С форматом BMP работает огромное количество программ, так как его поддержка интегрирована в операционные системы Windows и OS/2. Кроме того, данные этого формата включаются в двоичные файлы ресурсов RES и в PE-файлы. В данном формате можно хранить только однослойные растры. На каждый пиксель в разных файлах может приходиться разное количество бит (глубина цвета). Microsoft предлагает битности 1, 2, 4, 8, 16, 24, 32, 48 и 64. В битностях 8 и ниже он указывается индексом из таблицы цветов (палитры), а при больших непосредственным значением. Цвет же в любом случае можно задать только в цветовой модели RGB (как при непосредственном указании в пикселе, так и в таблице цветов), но в битностях 16 и 32 можно получить Grayscale с глубиной до 16 и 32 бит соответственно. Частичная прозрачность реализована альфа-каналом различных битностей, но при этом прозрачность без градаций можно косвенно получить RLE-кодированием.

В большинстве случаев пиксели хранятся в виде относительно простого двумерного массива. Для битностей 4 и 8 доступно RLE-кодирование, которое может уменьшить их размер. Формат BMP также поддерживает встраивание данных в форматах JPEG и PNG. Но последнее скорее больше предназначено не для компактного хранения, а для обхода ограничений архитектуры GDI, которая не предусматривает прямую работу с изображениями отличных от BMP форматов.

GIF (англ. Graphics Interchange Format - «формат для обмена изображениями») - популярный формат графических изображений. Способен хранить сжатые данные без потери качества в формате не более 256 цветов. Не зависящий от аппаратного обеспечения формат GIF был разработан в 1987 году (GIF87a) фирмой CompuServe для передачи растровых изображений по сетям. В 1989-м формат был модифицирован (GIF89a), были добавлены поддержка прозрачности и анимации. GIF использует LZW-компрессию, что позволяет сжимать файлы, в которых много однородных заливок (логотипы, надписи, схемы).



JPEG (произносится «джейпег » , англ. Joint Photographic Experts Group , по названию организации-разработчика) - один из популярных графических форматов, применяемый для хранения фотоизображенийи подобных им изображений. Файлы, содержащие данные JPEG, обычно имеют расширения (суффиксы) .jpg ,.jfif , .jpe или .jpeg . Однако из них .jpg является самым популярным на всех платформах. MIME-типом является image/jpeg.

PNG (англ. portable network graphics , сокращение произносится по-английски /pɪŋ/ ) - растровый формат хранения графической информации, использующий сжатие без потерь по алгоритму Deflate.TIFF (англ. Tagged Image File Format ) - формат хранения растровых графических изображений. TIFF стал популярным форматом для хранения изображений с большой глубиной цвета. Он используется при сканировании, отправке факсов, распознавании текста, в полиграфии, широко поддерживается графическими приложениями. TIFF был выбран в качестве основного графического формата операционной системы NeXTSTEP и из неё поддержка этого формата перешла в Mac OS X. Формат был разработан Aldus Corporation в сотрудничестве с Microsoft для использования с PostScript. Компания-владелец спецификаций - Aldus Corporation - впоследствии объединилась с Adobe Systems, владеющей в настоящее время авторским правом на эти спецификации .

Изначально формат поддерживал сжатие без потерь, впоследствии формат был дополнен для поддержки сжатия с потерями в формате JPEG .

DjVu (от фр. déjà vu - «уже виденное») - технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов - книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценноераспознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т. д.

Изначально технология была разработана Яном Лекуном, Леоном Боту и Патриком Хеффнером в AT&T Labs с 1996 по 2001 годы. DjVu стал основой для нескольких библиотек научных книг. Он довольно популярен, и в нём делается большое количество разных документов.

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлятьполнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.

  1. Что такое TWAIN?

TWAIN - стандартный протокол и интерфейс (API), определяющий взаимодействие между программами и устройствами захвата изображения, такими как сканеры и цифровые камеры.

Поскольку TWAIN не является протоколом аппаратного уровня, производитель устройств для получения изображений может предоставлять TWAIN-совместимый драйвер. Таким образом, становится возможным захват изображений не только со сканеров, но и некоторых веб-камер, не только при помощи Video for Windows, DirectShow или WIA, но и через TWAIN. Благодаря открытости стандарта становится возможным использование оборудования с программным обеспечением сторонних поставщиков, например камер для микроскопических систем Leica Microsystems (англ.).

В процессе работы используется несколько абстракций: англ. Data source manager, управляющий всеми доступными в системе TWAIN-совместимыми устройствами и англ. Data source object для каждого отдельного устройства, отвечающий за передачу и настройки захвата получаемого кадра.

Взаимодействие клиентского приложения и устройства можно представить следующим образом:

Диалог выбора устройства захвата (Data source manager)

Открытие источника данных (Data source) и настройка параметров захвата, с установкой разрешения изображения, разрядности и пр.

Клиентское приложение опрашивает устройство. Доступны два механизма: опроса и callback. В последнем случае устройство само сообщает о готовности изображения для передачи.

Собственно передача данных от DS. Существует несколько механизмов передачи:

Native - в Windows это Device independent bitmap в памяти

Memory - блоки пикселей в буферах памяти

File - DS записывает изображение непосредственно в файл (не обязательно поддерживается)

Закрытие источника данных

Данная статья – попытка стандартизировать работу по сканированию и сохранению файлов. Раньше при отсутствии цветного принтера и ёмких жёстких дисков все файлы сохранялись в чёрно-белом JPEG. Теперь эти файлы трёх-четырёхгодичной давности использовать уже не получается, приходится документы сканировать заново.

Программы

Для сканирования используйте программу Irfan View . Вы можете быстро вызвать драйвер сканера по горячей клавише Ctrl+Shift+A и быстро сохранить по горячей клавише S . (В последних версиях вызывается дополнительно окно выбора сканирования. Приходится использовать более старую версию). Программа не задаёт лишних вопросов по формату файла. Размер файла в формате TIFF LZW получается больше, чем при сохранении через Photoshop из-за использования в программе бесплатной библиотеки. Почему-то Photoshop не определяет разрешение таких файлов – всегда выставляет экранное (72 dpi). Автор Irfan View отсылает к разработчикам Photoshop

Сканирование документов на обычных сканерах целесообразно только для текущих нужд. Для целенаправленного сканирования используйте планетарные сканеры, позволяющие на листы даже формата A2 тратить не более 3-х секунд.

Сохранение

Сканированные документы сохраняйте и храните в формате TIFF с LZW сжатием. В этом формате изображение сохраняется без искажений.

Не храните файлы в формате JPEG , т.к. при этом изображение сохраняется с более или менее видимыми искажениями и к дальнейшей обработке и использованию мало пригодно. Допускается сохранение текстов документов в JPEG с максимальным качеством 100% для экономии места на жёстких дисках. Перед ретушью файлы сохраняйте только в формате TIFF .

Постоянное развитие устройств и способов хранения информации приводит к тому, что на дисках (HDD, CD, DVD) могут храниться всё большие объёмы информации, поэтому не уменьшайте размеры файлов в ущерб качеству.

Упорядочивание

При структурировании файлов вы можете быстро найти файл на диске (Пуск |Найти |Файлы и папки… ) либо по архивному шифру, либо по названию, либо по теме.

Если документы сканируете выборочно для выставок, буклетов, то в папке «Выставки» создайте папки отдельно по темам с датой, например «2004.10.23 Выставка ССО». Тогда папки в Проводнике будут отсортированы по датам.

Если документы сканируете по заказу, то создайте папки отдельно по каждому заказу с датой, например «2004.10.23 Заказ Иванов АБ». Тогда папки в Проводнике будут отсортированы по датам.

Файлы именуйте по их архивному шифру (Ф.105.Оп.1.Д.614600.Л.2. Фото Иванов.tif ). Оборотные листы именуйте аналогично (Ф.105.Оп.1.Д.614600.Л.2об. Рапорт.tif ). После шифра добавьте краткую аннотацию, например фамилии изображённых, тип документа для облегчения поиска по названию средствами Windows или Copernic Desktop Search .

Перед редактированием (ретушью) обязательно сохраните копию файла – «Ф.8043.Оп.1.Д.1 Фото Кабалевский рет .tif» и работайте уже с ней.

Если сканируете целенаправленно все листы дела, например, для создания фонда пользования (ФП), то файлы храните по отдельным папкам в соответствии с архивным шифром. В корневой папке создайте папку по номеру фонда «Ф.8043». Внутри каждой папки фонда создайте папки его описей «Ф.8043.Оп.1». Внутри каждой папки описей создайте папки её дел «Ф.8043.Оп.1.Д.1». Файлы можете назвать только по номеру листа, без аннотации, дополните номер слева нулями – «001.tif».

Подобная структура папок поддерживается программой Электронный Каталог . Возможно, в следущих версиях Архивного Фонда будет поддержка сохранения/показа изображений документов.

Подобная структура папок создаётся программой КопиФОД , будет создаваться программой СканФОД и поддерживаться программой АвтоФонд .

Отсканированные обложки книг сохраняйте в отдельную папку «Обложки книг» для облегчения их поиска.

После завершения поиска документа, можно открыть документ в Word для его изменения. Как это сделать зависит от версии Office, в которой установлены.

Сканирование документа в формате PDF и изменить в Word

Совет: Преобразование лучше всего работает с документами, содержащими преимущественно текст.

    Сканирование документа в соответствии с инструкциями для сканера и сохраните его на своем компьютере как PDF-файл.

    В Word, выберите файл > Открыть .

    Перейдите к нужному PDF-файл на своем компьютере и нажмите кнопку Открыть .

    Появится сообщение о том, что Word будет преобразовать PDF-файла в редактируемый документ Word. Нажмите кнопку ОК .

См. также

Параметр со сканера или камеры для сканирование изображений и документов недоступен в Word 2010. Вместо этого можно использовать сканер для сканирования документа, и сохраните файл на своем компьютере.

Программа Microsoft Office Document Imaging была удалена из Office 2010, однако вы можете установить ее на своем компьютере, используя один из вариантов, описанных в статье Установка приложения MODI для использования совместно с Microsoft Office 2010 .

Прежде чем продолжать

    Найти и открыть изображений документов Microsoft Office для Обработки изображений документа Microsoft Office в меню Пуск Windows.

    В меню Файл выберите команду Открыть .

    Найдите отсканированный документ и нажмите кнопку Открыть .

    После запуска Microsoft Office Document Imaging нажмите клавиши CTRL+A, чтобы выделить весь документ, а затем нажмите клавиши CTRL+C.

    Запустите Microsoft Word.

    На вкладке Файл нажмите кнопку Создать .

    Дважды щелкните элемент Новый документ .

    Нажмите клавиши CTRL+V, чтобы вставить содержимое отсканированного документа в новый файл.

Параметр со сканера или камеры для сканирование изображений и документов недоступен в Microsoft Office Word 2007. Вместо этого можно использовать сканер для сканирования документа, и сохраните файл на своем компьютере.

Шаг 1: Установка Microsoft Office документа обработки изображений

    Завершите работу всех программ.

    Совет: Перед завершением работы всех программ советуем распечатать этот раздел.

    Откройте панель управления: Щелкните правой кнопкой мыши кнопку Пуск и затем выберите пункт Панель управления или введите Панель управления в поле поиска в Windows.

    На панели управления щелкните Программы , а затем - Программы и компоненты .

    Щелкните правой кнопкой мыши название выпуска Microsoft Office установлен, или щелкните правой кнопкой мыши Microsoft Office Word 2007 (в зависимости от того как часть Office или отдельной программы установлен Word) и нажмите кнопку Изменить .

    Выберите Добавить или удалить компоненты , а затем нажмите кнопку Продолжить .

    В разделе Параметры установки щелкните знак "плюс" (+) рядом с компонентом Средства Office .

    Щелкните стрелку рядом с компонентом Microsoft Office Document Imaging , выберите параметр Запускать все с моего компьютера , а затем нажмите кнопку Продолжить .

Шаг 2: Создание документа, который можно редактировать

Отсканируйте документ, следуя инструкциям для сканера.

Прежде чем продолжать , преобразуйте полученный файл в формат TIFF. Для этого можно использовать Paint или другую подобную программу.

Теперь у вас есть документ, который можно редактировать. Не забудьте сохранить новый файл, чтобы не потерять изменения.

В фотоархиве у любого фотографа хранятся фотографии, напечатанные на бумаге. Для того чтобы их эффективно хранить или использовать для каких-либо целей, их нужно оцифровать при помощи сканера. Для этого надо знать, как правильно сканировать и сохранять такие фотографии.

Правильно сканировать фотографии нужно сразу, так как может больше не быть такой возможности. Ошибки сканирования могут Вам обойтись дорого, особенно если речь идет о сотнях и тысячах фотографий. О том, как правильно сканировать фотографии и пойдет речь дальше.

Сканировать фотографии можно самому, а можно доверить специалисту в ближайшей фотолаборатории, но в любом случае нужно понимать, как и для каких целей, Вы будете сканировать свои фотографии. Для разных целей это делается по-разному. Выбор цели сканирования фотографий – это первый этап, с которого сканирование начинается.

Цели сканирования фотографий

Цели сканирования фотографий могут быть разными. В зависимости от того как после сканирования будут использоваться фотографии, зависят настройки сканирования – разрешение, глубина цвета, формат хранения фотографий. Правильное сканирование фотографий это всегда поиск компромисса между настройками, от которых зависит качество и размер будущей цифровой фотографии.

Рис.1 Оцифровка семейного фотоальбома это одна из самых популярных целей для сканирования фотографий.

Целями для сканирования фотографий могут быть:

1. Перевод фотографий в цифровой вид для эффективного хранения
2. Реставрация старых фотографий из семейного фотоальбома
3. Копирование фотографий у кого-либо или для кого-либо
4. Создание музыкального слайд-шоу из фотографий
5. Увеличение размера фотографии или ее части
6. Печать фотокниги из своих фотографий
7. Просмотр на каком-либо устройстве
8. Пересылка по электронной почте
9. Размещение в сети Интернет
10.Универсальное хранение

Это 10 основных целей сканирования фотографий, из которых видно то, что в каждом таком случаи фотографии нужно сканировать по-разному. Например, в случаях 1,2,5,10 фотографии должны иметь максимальное качество. В случаях 3,4,6,7 качество должно быть строго ограниченным, а в случаях 8,9 размер файла должен быть минимальным.

Кроме этих 10 целей, конечно, есть и другие, но эти встречаются очень часто и они наглядно показывают, как сильно могут отличаться файлы и размеры цифровых фотографий после их сканирования. Конечно же, все фотографии можно сканировать с максимальным качеством, но тогда их размер будет очень большим, что потребует дополнительных ресурсов.

При сканировании фотографий актуально выражение «Цель определяет средства». От того как правильно будет поставлена цель, будут зависеть время потраченное на дополнительные операции и деньги потраченные на хранение ненужных объемов информации. Выбор цели сканирования это залог того, что Вы будете правильно сканировать свои фотографии.

После того как будет выбрана цель для которой Вам нужно сканировать фотографии, эти фотографии нужно подготовить для сканирования. Это второй важный этап в сканировании фотографий, который поможет Вам значительно сократить общее время сканирования большого количества фотографий и сделать сам процесс сканирования менее утомительным.

Подготовка фотографий к сканированию

Если нужно отсканировать одну или несколько фотографий, какой-либо особой подготовки для этого не надо. Но если стоит задача оцифровать большой фотоархив, тогда без сортировки фотографий Вам не обойтись. Чем больше фотографий надо сканировать, тем тщательней их для этого нужно готовить (рис.2).

Рис.2 Перед сканированием фотографий их нужно разделить на характерные группы по общему признаку.

Перед тем как сканировать большое количество фотографий, сначала их нужно собрать в отдельную стопку. После этого они делятся на группы, для которых характерны одинаковые настройки. Это могут быть размер, ориентация, разрешение, глубина цвета или что-то еще. Сканер удобнее перестраивать под группу фотографий, а не под каждую из них.

Процесс сканирования большого числа фотографий чем-то напоминает работу конвейера. Берем из стопки фотографию, загружаем ее в сканер, нажимаем кнопку, сканируем, извлекаем фотографию и так повторяется со всеми фотографиями. Чем меньше Вы отвлекаетесь от этих действий, тем быстрее закончите сканировать свои фотографии.

Для того чтобы максимально увеличить общую скорость сканирования фотографий, их можно сканировать сразу по несколько штук. Для этого в сканере нужно разместить не одну фотографию, а например, сразу три или четыре. Проблема только в том, что потом их придется вырезать из общего файла.

Если сканирование фотографий выполняется на «автопилоте», попутно можно смотреть видео, слушать музыку или заниматься чем-то еще, что этому не мешает. Для того чтобы сканировать фотографии непрерывно, надо выполнить третий этап – правильно настроить сканер, учитывая те рекомендации о которых говорилось выше.

Настройка сканера для сканирования

Для сканирования фотографий лучше всего иметь планшетный с пометкой «Photo». Такой сканер имеет специальную программу-драйвер для работы с фотографиями. Сканировать фотографии удобнее сразу из этой программы (рис.3), но можно и в других программах как, например Adobe Photoshop или XnView.

Рис.3 Сканировать фотографии удобнее с помощью программы-драйвера сканера.

Независимо от марки сканера самый главный параметр, который нужно правильно выбрать, это разрешение будущей фотографии. Выбирать его надо для какой-то одной цели, о которых говорилось выше. Чем больше разрешение, тем качественнее изображение, но при этом и размер файла фотографии будет больше. Важно выбрать оптимальное разрешение.

Оптимальным разрешением сканирования фотографий для печати ее на бумажном носителе считается 300 пикселей на дюйм. Это при условии, что печать осуществляется в масштабе 1:1. Если при печати фотография будет увеличена в два раза, то и разрешение сканирования должно быть увеличено в два раза.

Печать фотографий на бумаге является своего рода ориентиром. Это то максимальное качество, которое требуется для просмотра фотографий. Для просмотра другого типа фотографий такого качества не нужно как, например, для просмотра с экрана монитора или телевизора.

Если говорить о формате, в котором надо сохранять файлы фотографий при сканировании, то для этого есть два основных графических формата и . Правило по их применению очень простое. Для сохранения максимального качества изображения – TIF, в других случаях – JPEG.

Сканирование фотографий – это популярный способ пополнения своего фотоархива цифровыми фотографиями, но есть и другие. О них читайте в следующих главах этой статьи:

    Сканирование из Acrobat принимает изображения с разрешением в диапазоне 10–3000 dpi. При выборе параметра Изображение в возможностью поиска или ClearScan в разделе Стиль вывода PDF требуется разрешение выводимого изображения не ниже 72 dpi. Кроме того, разрешение выводимого изображения, превышающее 600 dpi, будет уменьшено до 600 dpi или менее.

    Сжатие изображения без потери качества может выполняться только с монохромными изображениями. Для сжатия отсканированного изображения без потери качества выберите в разделе «Параметры оптимизации» диалогового окна «Оптимизация отсканированного PDF» один из следующих параметров: «CCITT Group 4» или «JBIG2 (без потери качества)» для монохромных изображений. Если это изображение добавлено к документу PDF, можно сохранить файл с помощью параметра Сохранить; отсканированное изображение остается без сжатия. При сохранении документа PDF с помощью функции Сохранить как отсканированное изображение может быть сжато.

    Для большинства страниц сканирование в черно-белом режиме при 300 dpi дает лучшие результаты для преобразования. При разрешении 150 dpi точность оптического распознавания символов несколько снижается и количество ошибок распознавания шрифта возрастает; при разрешении 400 dpi и выше обработка замедляется, а размер файлов со сжатыми страницами увеличивается. Если на странице содержится много нераспознанных слов или текст небольшого размера (9 пунктов и меньше), попытайтесь выполнить сканирование в более высоком разрешении. Когда это возможно, сканируйте в черно-белом режиме.

    Если функция Оптическое распознавание символов выключена, можно использовать разрешением в диапазоне 10–3000 dpi, рекомендованное разрешение - 72 dpi и выше. Для параметра адаптивного сжатия рекомендуемые разрешения при сканировании: 300 dpi для изображений в градациях серого и RGB и 600 dpi для черно-белых изображений.

    Страницы, отсканированные в режиме 24-разрядных цветов, 300 dpi, размером 8,5 х 11 дюймов (21,59 х 27,94 см) до сжатия представляют собой изображения большого размера (25 МБ). Системе может потребоваться 50 МБ виртуальной памяти и более для сканирования изображения. При разрешении 600 dpi процесс сканирования и обработки обычно происходит в четыре раза медленнее, чем при 300 dpi.

    Избегайте настройки параметров полутонов и диффузионного смешения сканера. Это может улучшить внешний вид, но станет сложно распознавать текст.

    Для текстов, распечатанных на цветной бумаге, рекомендуется увеличить яркость и контрастность примерно на 10%. Если сканер обеспечивает световую фильтрацию, следует подавить цвет фона при помощи специального фильтра или лампы. Или, если текст не подавляется, попробуйте настроить контрастность и яркость сканера, чтобы очистить отсканированный документ.

    Если у сканера есть ручное управление яркостью, настройте его так, чтобы символы были четкими и имели правильную форму. Если символы соединены между собой, используйте более высокие параметры (более яркого цвета). Если символы разделены, используйте более низкие параметры (более темного цвета).



Статьи по теме