Томский Университет Систем Управления и Радиоэлектроники

(ТУСУР)

 

 

 

 

 

 

 

 

Лабораторная работа по дисциплине

"Основы вычислительной техники и программирования"

 

Новые технологии компрессии
для представления печатных и рукописных документов
.

 

 

 

 

 

                                               Студент гр. 180-1:

Петров Н.В.

 

Преподаватель:

Карауш А.С.

 

 

 

 

           

 

 

 

 

 

Томск 2002

 

 

План:

1 Введение
  Целью данной лабораторной работы ...

2 Основная часть(текст программы)
 2.1. Задание на лабораторную работу.
 2.2. Разработка алгоритма
 2.3. Текст программы с комментариями
 2.4. Пример работы программы

3 Заключение
  В ходе данной лабораторной работы была создана программа....

 

Введение.

Большая часть культурного наследия сейчас доступна только на бумаге. Архивы, библиотеки, музеи – это места хранения большей части научного и культурного наследия. К сожалению, прямой доступ к этому огромному массиву материалов, бесценных для профессионального и личного использования, чрезвычайно затруднен и дорог.

Вот почему для того, чтобы обеспечить сохранность информации и простой доступ к ней студентам и ученым, наиболее интересные документы были пересняты. Микрофильмы дают неплохое качество, длительное хранение, незначительную зависимость от технических средств и возможность производить дополнительное копирование без значительных потерь информации. Однако, для того, чтобы обеспечить удаленный доступ к информации, микрофильмы должны быть оцифрованы, что означает дополнительную потерю качества.

В период быстрого развития коммуникационных и информационных технологий с все возрастающими возможностями передачи информации микрофильмы остаются в старой аналоговой эре. Новая эра принадлежит Интернету и быстрый рост технических преимуществ технологий оцифровки. Взрывообразное развитие Интернета как универсальной платформы обмена информацией предоставляет возможность легкого доступа к сокровищам культуры.

Однако, электронный доступ к печатным или письменным документам – сложная задача. Бумажные документы содержат текст и иллюстрации, и очень часто необходимо оцифровывать и переводить в формат изображения весь документ. Иногда возможно использовать технологии оптического распознавания текста и вычленять текст из рисунков и фотографий, но это представляется слишком сложным, когда имеешь дело со старыми документами, а во многих случаях и вообще невозможным. Старый документ не является суммой информации, содержащейся в тесте и в иллюстрациях. Цвет, текстура бумаги, стиль почерка или техника печати очень часто более важны, чем информационное содержание документа, которое в большинстве случаев уже известно.

Философия, лежащая в основе этого подхода, состоит в том, что старые документы необходимо представлять интегрировано, показывая текстовую информацию в визуальном контексте. Для этого документы оцифровываются и представляются как изображения. Так называемые виртуальные библиотеки дают возможность просматривать документы, копировать их с помощью принтера и, что также важно, документы можно собирать и хранить в личном архиве для дальнейшего использования.

Главная проблема при представлении печатных документов в Интернет состоит в компромиссе между качеством воспроизведения документа и временем, необходимым для передачи и загрузки огромного объема информации, содержащейся в файле изображения.

Сейчас быстрый рост количества пользователей Интернет осложняет задачу, так как возможности передачи почти исчерпаны. Возможно, с внедрением быстрого Интернета проблема будет смягчена, но сейчас и в ближайшем будущем единственно возможным решением может быть компрессия изображения с потерями качества, позволяющая пользователю получить доступ к документу в разумное время с приемлемым качеством изображения. В результате оцифровки документа обычного размера со средним разрешением и глубиной цветопередачи чаще всего получается огромный файл размером порядка 20 – 50 Mb. Качество такого изображения высокое, но время передачи и обработки файла, а также технические требования к компьютеру непомерны. Вот почему повсеместно используется компрессия с потерей качества, так как она позволяет уменьшить размер файла при небольшой потере качества.

Наиболее популярные стандарты для передачи изображений - форматы GIF и JPEG.

Формат GIF обычно используется для сжатия изображений, содержащих небольшое количество различных цветов. Так как этот формат использует схему кодирования без потерь качества, он не очень эффективен и не подходит для распространения реального живого цвета или изображений в серой шкале цвета. Гораздо лучшие результаты можно получить с помощью формата JPEG, разработанного Joint Pictures Expert Group, который осуществляет разделение хроматической информации, квантование трансформационных коэффициентов DCT и Huffman кодирование данных. Хотя коэффициент компрессии порядка 40:1 легко достигается без большой потери качества, формат JPEG не подходит для компрессии документов. Так как документ содержит много высокочастотных объектов, таких как буквы и рисунки, элиминирование высокочастотных компонентов при трансформации ведет к существенным потерям качества при воспроизведении документа. При повышении коэффициента компрессии текст быстро искажается и становится неразборчивым. Чтобы сделать документ читаемым необходимо делать файл JPEG большого размера, и это основное препятствие при создании эффективной Интернет-библиотеки.

Обычно принимается решение о переводе документа в двуцветный вид, а затем применяется компрессия стандартом CCITT, разработанным Fax Group 3 или Fax Group 4. Этот подход обеспечивает разборчивость текста при большом коэффициенте сжатия ценой полной потери информации о цвете.

JPEG, GIF и факсовые форматы, используемые для распространения документов, сейчас заменяются новым форматами, основанными на волновом принципе, направленном на прямую компрессию документов, отсканированных с высоким качеством. Эти новые форматы обеспечивают быструю передачу оцифрованных документов при приемлемом уровне качества.

Среди новых волновых форматов два представляют наибольший интерес для представления оцифрованных документов в Интернете, это форматы DjVu и LuraDocument.

Основные принципы и особенности формата DjVu, а так же методы работы непосредственно со сканером были описаны студентами гр. 180 Зленко А.В. и Клишевичем С.П. в их отчете, поэтому я не буду подробно останавливаться на описании тонкостей этого формата. В моем отчете будет более подробно рассмотрен формат LuraDocument, а так же проведено сравнение указанных форматов по многим параметрам для выявления наиболее производительного и приемлемого, а следовательно и наиболее перспективного. Так же в отчете будет представлен краткий обзор формата LuraWave – еще одной разработки от LuraTech.

 

LuraTech GmbH разработала новую схему для сжатия и архивации сосканированных документов, содержащих как изображения, так и текст. LuraDocument® основана на улучшенных версиях технологии сжатия изображений LuraWave®.

LuraDocument®  представляет вам следующие особенности:

 

 

LURAWAVE - Новая технология сжатия графики или средство для похудения пиксельных изображений.

Файлы изображений занимают значительно больший объем памяти, чем текст или векторная графика. Картинка в режиме RGB, состоящая из 640 х 480 точек, занимает около 900 КБ дисковой памяти (в графическом формате BMP или TIFF). С целью недопущения подобного расточительства графические форматы используют различные способы сжатия графических данных. Алгоритм сжатия выполняет  пересчет данных, не изменяя при этом глубину цветов или число точек изображения. Наиболее известен формат JPEG. Но если в этом формате выполняется сжатие с коэффициентом, превышающим 1 : 20, то появляются заметные искажения изображения.

Новый графический формат Lurawave позволяет достичь оптимального качества изображения при небольшом размере графического файла.

Файлы в этом формате имеют расширение lwf, а сам формат был разработан немецкой фирмой Luratech с целью хранения спутниковых фотографий. C его помощью удавалось получать степень сжатия оригинальных изображений до 1 : 100 без существенного ущерба для качества изображения — этот коэффициент сжатия в формате JPEG делает невозможным просмотр изображения. Подобные файлы небольшого размера удобны для распространения по каналам Internet, ибо их пересылка не занимает много времени.

JPEG состязается с LWF: сравнение степени сжатия

                       

 

Изображение с коэффициентом сжатия графики 1:100

JPEG (вверху) ступенчато размывает кон-
туры, качество изображения посред-
ственное. Lurawave (внизу) при этом
коэффициенте сжатия обеспечивает
приемлемый результат.

Увеличенный фрагмент левого изображения

Картинка в формате JPEG (вверху) имеет
типичные недостатки - искаженные цвета и контуры, которые нужно мысленно
дорисовывать. Картинка в формате
Lurawave ближе к оригиналу, но является размытой

 

Программы, поддерживающие новый формат.

Для хранения графических файлов в формате Lurawave необходима либо отдельная программа LuraWave SmartCompress стоимостью примерно $99, либо подключаемый модуль (plug-in) для графической программы. Существуют подключаемые модули для Photoshop, Paint Shop Pro, Macromedia Director или базы данных изображений Cumulus. Эти программы доступны на Web-узле фирмы Luratech. Для браузеров Internet от Netscape и Microsoft фирма Luratech распространяет бесплатные подключаемые модули. Производитель графических пакетов фирма Micrografx собирается интегрировать формат LWF в свои программы.

Ниже приведены расценки, взятые из прайса компании Luratech на 18.05.2002 на программную продукцию, использованную в ходе работы:

LuraDocument Capture

 

 

OS/Format

Product-No

Price

Download

Order

 

Professional 

 

LDF-010201-20

$99.00

 

order

Lite 

Win95/98/NT

LDF-010101-20

FREE

Download

 

LuraDocument Browser PlugIn

 

 

OS/Format

Product-No

Price

Download

Order

 

 

 

LDF-040301-20

FREE

download

 

 

MacOS

LDF-040306-20

FREE

coming soon

 

LuraDocument Photoshop Plug-In

 

 

OS/Format

Product-No

Price

Download

Order

 

 

 

LDF-050201-20

$129.00

 

order

 

MacOS

LDF-050206-20

$129.00

 

order

 

 

Demo

FREE

download

 

 

MacOS

Demo

FREE

download

 

LuraWave Browser PlugIn

 

 

OS/Format

Product-No

Price

Download

Order

 

 

 

LWF-040301-20

FREE

download

 

 

MacOS

LWF-040306-20

FREE

download

 

 

 

LWF-040302-20

FREE

download

 

 

Linux x86

LWF-040305-20

FREE

download

 

LuraWave Photoshop PlugIn

 

 

OS/Format

Product-No

Price

Download

Order

 

 

 

LWF-050201-20

$79.00  

 

order

 

Win95/98/NT

Demo

FREE

download

 

 

 

LWF-050206-20

$79.00  

 

order

 

Win95/98/NT

Demo

FREE

download

 

LuraWave SmartCompress

 

 

OS/Format

Product-No

Price

Download

Order

 

Professional 

 

JP2-100201-30

$19.95  

 

order

Lite 

Win95/98/ME/NT/2000

JP2-100101-30

FREE

download

 

 

Формат Lurawave поддерживает цветовые модели RGB, CMYK и Grayscale. Во время записи на диске фотографии в формате LWF можно сделать выбор между двумя опциями: сжатие без потерь или с потерями» Степень сжатия устанавливается по различным критериям. Например, если размер файла изображения не должен превышать объем дискеты, то выбирается соответствующий коэффициент сжатия графической информации. Его величина может варьироваться от 1 до 100. Пользователю, конвертирующему целые серии изображений в формат Lurawave, следует выполнить единые установки с тем, чтобы качество изображений оставалось одинаковым.

Для Web-дизайнеров особенно интересной будет возможность выбора — должна ли картинка в lnternet-браузере появляться медленно, строка за строкой, или уже изначально высвечиваться в виде нерезкого блока. Подобные варианты выбора соответствуют форматам JPEG progressive или GIF interlaced.

 

Влияние степени сжатия на качество изображения
Графический формат Lurawave основан на принципах, отличных от используемых форматом JPEG. Сначала программа классифицирует общую и детализированную графическую информацию и организует ее в иерархическом порядке. На первом этапе передаются наиболее важные графические данные. При этом на экране появляется расплывчатое серое изображение. Даже если теперь передача прерывается, получатель может представить себе содержание всего изображения.

Эффекты ступенек и искаженные цвета, характерные для формата JPEG, при использовании формата Lurawave незаметны. Сжатие проявляется в виде эффекта размытости. Однако по сравнению со сжатием JPEG результат будет однозначно лучшим.

При выполнении сжатия участки изображения без заметных контрастных областей смягчаются больше, чем резко очерченные участки. Поэтому надпись на сантиметровой ленте в тестовой картинке хорошо видна. Слабое место нового формата — работа опции, реализующей более слабое сжатие отдельных участков изображения. При ее применении границы зон с разным сжатием будут довольно заметными.

Lurawave рожден для Internet
Сильные стороны формата LWF — хорошее качество при минимальном размере графических файлов — проявляются прежде всего в Internet.

Фиксированные размеры изображений в lnternet-браузере уже отходят в прошлое. В коде HTML размеры изображения задаются независимо от размера оригинала, затем их всегда можно изменить. Можно также задавать передаваемый объем графических данных — на сетевом сервере находится изображение с высоким разрешением, а наблюдатели могут увидеть его копию с низким разрешением.

Изменяемое разрешение изображения имеет еще одно преимущество. Пользователи, установившие подключаемые модули для браузеров Internet, могут задать вывод фотографий в режиме с низким разрешением. Лишь человек, знающий код, получает фотографию с высоким разрешением. Это идеальный метод для фотографов, продающих фотографии через Internet.

 

Далее будет изложено описание пакета LuraDocument® Capture с подробным рассмотрением его функций.

 

 

LuraDocument® Capture - Введение

LuraDocument® Capture - это высокопроизводительное приложение для сжатия и архивации сканированных черно-белых и цветных изображений.

Рисунок, приведенный ниже, раскрывает область применения LuraDocument®. Можно увидеть, как важна альтернатива между схемой сжатия изображений и монохромной схемой сжатия текста.


Область применения LuraDocument®

Проблемы сжатия изображений при использовании стандартных технологий

В данный момент существует широкий спектр технологий сжатия изображений. Одной из наиболее распространенных технологий является "
JPEG-Standard" от Joint Pictures Expert Group. Новые процедуры сжатия, основанные на технологии wavelet , такие как LuraTech's LuraWave, предоставляют более высокое качество вместе с расширенными функциональными возможностями, включая сжатие без потерь и прогрессивную реконструкцию изображений.

Традиционные технологии сжатия практически не подходят для документов, содержащих как текст, так и изображения: при увеличении коэффициента сжатия текст искажается и становится нечитаемым. Стандартным решением является, во-первых, преобразование таких смешанных документов в монохромные и сжатие при использовании стандарта CCITT "Fax Group 3" или "Fax Group 4". Это позволяет применять высокий коэффициент сжатиядля архивации и предохраняет читаемость текста, но, конечно, требует потери контраста и информации изображения.
 

Концепция LuraDocument®

LuraDocument® - это процедура сжатия документов, которая предохраняет читаемость текста при высоком визуальном и цветовом качестве. Основа процедуры LuraDocument® - анализ и сегментация документов. Смешанные изображения разделяются для получения трех слоев:

Затем эти три слоя раздельно сжимаются, используя наиболее эффективные методы.

LuraDocument® особенно подходит для документов, содержащих как большие области с изображениями, так и текст, и сосканированных при разрешении 300 dpi или выше. Рисунок, приведенный ниже, показывает детали журнала, сосканированного при разрешении 300 dpi.

Сравнение качества (детали из документов при разрешении 300 dpi)
 

Технический обзор LuraDocument®

В данном разделе описываются подробности этапов кодирования и декодирования LuraDocument®.

Квантование

Квантование – это преобразование цветного или полутонового изображения в черно-белое изображение. Это черно-белое изображение – ввод для текстового детектирования, которое генерирует текстовый слой. LuraDocument® предлагает 2 разных метода квантования. Может использоваться или фиксированное пороговое, или адаптивное квантование. Адаптивное квантование адаптируется к локальным изменениям изображения и определяет локальные пороги чувствительности. В LuraDocument® Capture поддерживается только более гибкое адаптивное квантование.
 

Сегментация

Этап сегментации Разделяет документ на области текста и изображения. LuraDocument® включает новый алгоритм сегментации LuraTech, который автоматически разделяет области текста и изображения. Одним из значительных преимуществ алгоритма сегментации LuraDocument® является то, что разделение на текст и изображение проделывается в каждом пикселе, а не для квадратного блока пикселей, как это в основном бывает в традиционных методах сегментации.


Блок-схема этапов кодирования LuraDocument®  

Разделение и кодирование

Этап разделения использует сегментацию для разделения документа на 3 слоя:

Полутоновый текст сжимается с разрешением оригинального документа, тогда как фон и цветовая информация текста кодируются с более низким разрешением.

Декодирование

Полутоновый текст, фон и цветовая информация текста независимо декодируются. 3 расшифрованных изображения объединяются для восстановления оригинального документа. Расшифрованные изображения могут быть просмотрены используя приложения, поддерживающие LuraDocument®, такие как LuraDocument® Capture, Adobe Photoshop, Netscape, Internet Explorer или ACDSee, или будучи преобразованными в стандартный формат.
Возможно расшифровать только части файла
LuraDocument® , такие как иконки или полутоновый слой.


Блок-схема этапа декодирования

Декодированное изображение может быть сохранено в различных стандартных форматах (например TIFF или BMP).


Декодирование может быть рассмотрено как сумма слоя цветного текста и фона.

 

Сканер должен быть сначала выбран используя закладку в меню File. Убедитесь в том, что сканер правильно подключен и соответствующий  TWAIN драйвер успешно установлен.

. 

Метод сжатия и сканирования может быть так же указан.
Если вам нужно заархивировать, например, журнал, вам нужно выбрать метод "
Catalog". Метод Catalog понимает цветные документы, которые могут содержать неявный текст (т.e. светлый текст на темном фоне).

Поместите ваш журнал на сканер и нажмите кнопку scan или используйте закладку "Scan New Page" в меню Edit. Когда страница будет сосканирована и сжата, она будет отображена как первая страница вашего документа LDF.

Повторное сканирование добавит вторую страницу в файл документа LDF.
Методы сжатия и сканирования необходимо устанавливать только 1 раз за сессию.

 

 

LuraDocument® Capture – Меню «File»

Содержимое меню "File" имеет следующие вложения:

 

LuraDocument® Capture – Меню «Edit»

Содержимое меню  "Edit" имеет следующие включения:

 

LuraDocument® Capture – Меню «View»

Содержимое меню "View" имеет следующие включения:

 

LuraDocument® Capture – Меню «Settings»

Содержимое меню "Settings" имеет следующие включения:

Примечание: Настройки "Image Quality", "Bitonal Coder" и "Thumbnail" в выбранном методе сжатия влияют как на сосканированные, так и на импортируемые изображения.

 

 

 

LuraDocument® Capture – Меню «Help»

Содержимое меню "Help" содержит следующие включения:

 

LuraDocument® Capture – Диалоговое окно Print

Настройки процесса печати и страниц, которые должны быть напечатаны, могут быть установлены в диалоговом окне «print». Доступные настройки печати зависят от типа принтера и от его драйверов.

 

 

 

LuraDocument® Capture – Диалоговое окно «Options»

Это диалоговое окно показывает различные стандартные методы сканирования и сжатия. Доступно 5 различных методов. Вы можете выбрать разрешение, цветовую палитру и качество изображения для каждого метода используя кнопку "Change". Конкретный метод, который, будет использоваться, может быть установлен, используя элемент меню "Select Compression Profile". Параметры сжатия и сканирования для каждого типа документов могут быть изменены в диалоговом окне Settings dialog. Используя флажок "Show the Profile-Select-Dialog" вы можете спрятать\показать диалог выбора метода перед сжатием новой страницы. Диалоговое окно TWAIN может быть включено или выключено. Диалоговое окно TWAIN позволяет установить специфические настройки сканера.

Примечание: Если флажок "Show the TWAIN dialog during scanning" поставлен, вы можете изменять настройки разрешения и цветовой палитры в диалоговом окне TWAIN. Тогда будут использоваться новые значения вместо тех, что указаны здесь.

 

 

 

LuraDocument® Capture – Диалоговое окно «Settings for ...»

Здесь настройки сканирования и сжатия могут быть изменены вручную.


Параметры:

Могут быть выбраны цветовые палитры: RGB Color, Grayscale или B/W Bitmap. RGB color предпочтительно для каталогов, чеков и писем с цветными логотипами. Grayscale подходит для газет и простых писем. B/W Bitmap разработано для факсовых и других черно-белых документов. Изменение цветовой палитры повлияет только на сканирование изображений и игнорируется при импортировании изображений.

Качество изображения, с которым страница должна быть сжата, может быть установлено здесь. Более низкое качество соответствует более высокому коэффициенту сжатия более маленькому размеру выходного файла. Изменения настроек качества изображения повлияет только на color/grayscale части страницы и не используется для полутонового текста.

Черно-белый преобразователь, используемый для сжатия полутонового слоя, может быть выбран здесь. LuraDocument® - это специально разработанный формат, более эффективный, чем стандартный формат Fax Group 4. Формат The Fax Group 4 поддерживается широким кругом приложений.

Разрешение при сканировании определяет уровень детализации, который должен быть при процессе сканирования. Изменения настроек разрешения повлияют только на сканируемые страницы и игнорируются при импорте изображений.

Позволяет просматривать в виде иконки страницу, которая должна быстро отображаться в процессе загрузки.

 

 

 

LuraDocument® Capture – Диалоговое окно «Page Information»

Отображает информацию о размере в пикселях, коэффициенте сжатия и размере страницы в байтах.

 

LuraDocument® Capture – Основное окно

Основное окно отображает текущую страницу в документе LDF. Отображаемая страница может быть увеличена и уменьшена в размере. Навигация по странице осуществляется при помощи курсора или полосы прокрутки.
 

 

LuraDocument® Capture – Окно просмотра

Окно просмотра отображает уменьшенные изображения (иконки) всех страниц документа LDF. Соответствующий странице номер отображается под каждой иконкой, и номер текущей страницы выделяется. Текущая страница может быть выбрана путем нажатия на иконку.
 

 

LuraDocument® Capture – Окно комментариев

Окно комментариев содержит добавочный текст, привязанный к текущей странице. Этот текст сохраняется в странице в формате LDF.

 

 

 

Практика сканирования с помощью DjVu и LuraDocument

 

LuraDocument® Capture - Советы

  1. Letter: Используйте этот метод для простых документов содержащих только темный текст на светлом фоне.
  2. Check: Этот метод также распознает темный текст на светлом фоне и подходит для более сложных документов, таких как счета, карты и чеки.
  3. Catalog: Этот метод позволяет распознавать инверсный текст, как это встречается в журналах и рекламных объявлениях.
  4. Color Photo: При использовании этого метода текст не распознается.
  5. Fax: Используйте этот метод для сжатия черно-белых изображений без потерь.

 

В ходе работы использовалась машина:  Intel Pentium III 500 MHz 128 Mb SDRAM UDMA33 .

Первым объектом исследования послужит документ Retro-8

Этот документ представляет из себя ксерокопию документа приличного возраста, на котором отразились и факторв ветшания бумаги, и издержки ксерокса. В сосканированном виде в формате ВМР файл будет весить:

1.       При разрешении сканирования 300 dpi черно-белом – 908 килобайт                        (Retro-8-300dpi-bw.bmp)

Для складывания в формат LuraDocument применяется шаблон CHECK
Полученный файл Retro-8-300dpi-bw.ldf размером 186 килобайт. Время складывания – 1 секунда

Для складывания в формат DjVu применяются настройки, рекомендованные в вышеупомянутом отчете о формате DjVu
Полученный файл
Retro-8-300dpi-bw.djvu размером 153 килобайт. Время складывания – 47 секунд.

2.       При разрешении сканирования 300 dpi сером – 7339 килобайт                                 (Retro-8-300dpi-gray.bmp)

Для складывания в формат LuraDocument применяется шаблон CHECK
Полученный файл Retro-8-300dpi-
gray.ldf размером 345 килобайт. Время складывания – 1 секунда

Для складывания в формат DjVu применяются оптимальные настройки, рекомендованные в вышеупомянутом отчете о формате DjVu
Полученный файл
Retro-8-300dpi-gray.djvu размером 376 килобайт. Время складывания – 1 минута 24 секунды.

Результаты показывают, что в первом случае визуально при максимальном увеличении качество выходных файлов не различаетя. Во втором же случае у DjVu возникают серьезные проблемы со считываемостью текста, что показано на рисунке ниже. Это объясняется тем, что разрешения 300 dpi  в режиме gray для DjVu явно недостаточно для четкого разделения текста и фона. И даже после поднятия качества входного файла до 600 dpi задача четкого разпознавания текста для DjVu остается нелегкой. Полученный файл Retro-8-600dpi-gray.djvu размером 685 килобайт. Время складывания – 2 минуты 13 секунд.

Файл Retro-8-600dpi-gray.djvu в увеличенном виде (685 килобайт)

 

Файл Retro-8-300dpi-gray.ldf в увеличенном виде (345 килобайт)

 

Файл Retro-8-300dpi-gray.djvu в увеличенном виде (376 килобайт)

 

 

 

Вторым объектом исследования послужит документ Online

 

 

Этот документ представляет из себя страницу из журнала Online, содержащую многообразие рисунков, нормального и инверсного текста и сложный фон. В сосканированном виде в формате ВМР файл будет весить 24818 килобайт                  (Online-300dpi-color.bmp)

Для складывания в формат LuraDocument применяется шаблон CATALOG
Полученный файл Online-300dpi-
color.ldf размером 312 килобайт. Время складывания – 2 секунды.

Для складывания в формат DjVu применяются настройки, рекомендованные в вышеупомянутом отчете о формате DjVu
Полученный файл
Online-300dpi-color.djvu размером 413 килобайт. Время складывания – 3 минуты 32 секунды.

Результаты показывают, что LuraDocument справился с поставленной задачей весьма неплохо – отчетливо читается простой и инверсный текст при относительно малом размере файла при входном разрешении 300 dpi. Для DjVu же и эта задача оказалась не по зубам. Наблюдается размазанность даже крупного простого текста, не говоря уже об инверсном, что порядком затрудняет читаемость документа.

Файл Online-300dpi-color.djvu в увеличенном виде (413 килобайт)

 

Файл Online-300dpi-color.ldf в увеличенном виде (312 килобайт)

 
 

 

 

 


Третьим объектом исследования послужит документ Letter

 

 

Этот документ представляет из себя рукописное письмо на немецком языке, которое содержит штамп. Следует отметить, что письмо довольно ветхое – на лицо и выцветшие чернила, и изрядно пожелтевшая бумага, к томуже еще и помятая.В сосканированном виде в формате ВМР файл будет весить 24818 килобайт                  (Letter-300dpi-color.bmp)

Для складывания в формат LuraDocument применяется шаблон CHECK
Полученный файл Letter-300dpi-color.ldf размером 15 килобайт. Время складывания – 2 секунды

 

Для складывания в формат DjVu применяются настройки, рекомендованные в вышеупомянутом отчете о формате DjVu
Полученный файл
Letter-300dpi-color.djvu размером 13 килобайт. Время складывания – 14 секунд.

 

Результаты показывают, что LuraDocument справился с поставленной задачей превосходно – отчетливо читается рукописный текст, и даже можно разглядеть элементы штампа, которые получились точь-в-точь с качеством оригинала. Да и 15 килобайт файла с таким качеством – это просто замечательно. DjVu так же справился с этой задачей. Текст хорошо читается, виден штамп. Но если расмотреть при более высоком приближении, то можно рассмотреть, что в файле, обработанном LuraDocument прорисовка текста и штампа более четкая, что обуславливается тем, что LuraDocument сохраняет распознанный текст с разрешением сканирования, а DjVu -  с разрешением максимум 25 килобайт. Так же в LDF файле более насыщенным смотрится фон.

 

Файл Letter-300dpi-color.djvu в увеличенном виде (13 килобайт)

 

Файл Letter-300dpi-color.ldf в увеличенном виде (15 килобайт)

 
 

 

Четвертым объектом исследования послужит документ Newsp

 

Этот документ представляет из себя полосу из газеты 1931 года, которая, как нетрудно догадаться, является весьма ветхой, можно сказать, в аварийном состоянии. Но зачастую перед электронными библиотеками стоят именно подобные задачи – задачи оцифровки и хранения таких документов. В сосканированном виде в формате ВМР файл будет весить 24818 килобайт (Newsp-300dpi-color.bmp)

 

Для складывания в формат LuraDocument применяется шаблон CATALOG
Полученный файл Newsp-300dpi-color.ldf размером 241 килобайт. Время складывания – 1 секунда.

 

Для складывания в формат DjVu применяются настройки, рекомендованные в вышеупомянутом отчете о формате DjVu.
Полученный файл
Newsp-300dpi-color.djvu размером 154 килобайт. Время складывания –  1 минута 18 секунд.

 

Результаты показывают, что LuraDocument справился с поставленной задачей неплохо – практически вся текстовая информация, присутствующая в документе, читаема. DjVu с этой задачей справился значиетльно хуже – ему в данной ситуации оказалось мало 300 dpi. Только при разрешении сканированного файла 600 dpi DjVu смог выдать читаемый текст. Что же касается рисунков – то они неудовлетворительны во всех трех случаях – это обуславливается черезвычайно низким их качеством на оригинале.

 

Файл Newsp-300dpi-color.djvu в увеличенном виде (349 килобайт)

 

Файл Newsp-300dpi-color.ldf в увеличенном виде (241 килобайт)

 

Файл Newsp-300dpi-color.djvu в увеличенном виде (154 килобайт)

 

 

 

 

 

Выводы.

 

В процессе проделанной работы были подробно изучены принципы и получены практические навыки в оцифровке бумажных документов, а так же в обращении с программными пакетами DjVuer и LuraDocument. Были получены образцы выходных файлов в обоих форматах, которые являются наглядным отражением произведенных экспериментов. Так же было проведено практическое сравнение двух алгоритмов сжатия графической и текстовой информации – DjVu и LuraDocument.

 

Результаты показывают, что графическая информация, сложенная в формат LuraDocument имеет более высокое качество, более мелкий размер выходного файла, чем при использовании алгоритма формата DjVu , а так же, что немаловажно, наблюдается несоизмеримо более высокая скорость обращения и складывания, а следовательно и общая производительность при использовании алгоритма формата LuraDocument.

 

Заключение.

 

Фактически ребята из компании LuraTech разработали новый формат сжатия графических изображений. Очень хороший формат, надо заметить. К сожалению я не смог в полной мере осветить графический формат от той же конторы – LuraWave. Но в отчете уже упоминалось, что LuraDocument использует принцип LuraWave при сжатии графической информации, распознанной пакетом как рисунок или фон. Но я просто считаю обязанным напомнить, что пакет LuraWave® Smart Compress помимо своих превосходных качеств прямого назначения имеет совершенную простоту пользования. К примеру в настройках складывания в формат, в отличии от того же DjVu, отсутствует многообразие пугающих и непонятных настроек. Существуют всего 3 настройки – коэффициент сжатия (1:100 например), коэффициент сжатия в процентах, и, самое основное – РАЗМЕР ВЫХОДНОГО ФАЙЛА в килобайтах. Поверьте мне – это на практике потрясающе удобная фишка. Подбором одного из этих 3 параметров и осуществляется контроль размер-качество. 

Что же касается полученных результатов сравнения форматов и пакетов DjVu и LuraDocument -  стоит еще раз подчеркнуть несколько моментов:

1.       LuraDocument, в отличии от DjVu, не так требовательна к железу. Не секрет, что далеко не каждый пользователь, нуждающийся в доступе к такого рода информации, зачастую в общественных местах, имеет в своем распоряжении сверхмощную машину и уйму времени, что является непременным требованием DjVu. Согласитесь, есть разница между 1-5 секундами (LuraDocument) и 3-30 минутами (DjVu). А вдруг пользователь DjVu несоответственно настроил пакет для конкретного документа … Караул ! Унылое лицо и много потерянного времени… 8)

2.       LuraDocument не так требовательна к разрешению входного сосканированного файла. Для любых документов достаточно всего 300 dpi ! Тогда как в DjVu зачастую для достижения приемлемого качества приходится использовать до 900 dpi, а это уже аппроксимированное разрешение, а значит, бесполезное противодействие двух алгоритмов.

3.       LuraDocument имеет многостраничный формат, что очень удобно для сохранения многостраничных (как оно зачастую и бывает) документов в 1 файл, что на порядок снижает размеры базы данных, в которой такие файлы могут лежать. Так же для баз являются весьма заманчивыми размеры ldf файлов.

4.       LuraDocument сжимает распознанный текст с разрешением отсканированного оригинала, тогда как DjVu имеет максимальное разрешение на текст всего 25 dpi. Этот фактор говорит сам за себя, когда Вам необходимо оцифровать именно тексты или рукописи с мелким и трудноразборчивым шрифтом (почерком).

5.       LuraDocument хоть и является коммерческим пакетом, но согласитесь, при покупке программы разница для покупателя между 8000$ (DjVu) и 99$ (LuraDocument) за лицензию на неограниченное использование оного весьма и весьма существенна. 8)

 

 

 

 

Чтобы не быть голословным, прикрепляю к отчету все графические файлы, использованные и полученные в процессе работы, сами дистрибутивы описанных программных продуктов, а так же замечательную коллекцию документов в формате ldf , подготовленную сотрудниками Armadillo Virtual Library, Silesian Library, Katowice, Poland, и любезно ими предоставленную на всеобщее обозрение на их официальном сайте :  http://plum.ia.polsl.gliwice.pl/vb . Коллекция представляет собой собрание из 20-ти оцифрованных ветхих документов, рукописных и печатных, написанных на немецком языке мелким готическим шрифтом (специально для показа преимуществ представляемого формата). Потрясающее качество и малый размер – вот что действительно впечатляет …

 

             ...

 

Лично я получил огромное удовольствие при работе с новыми графическими форматами. А стоит или не стоит Вам их использовать – решайте сами 8)

 

 

 

Список использованной литературы:

 

1.       Статья Богдана Смолка (Bogdan SMOLKA) и Конрада Войцеховского (Konrad WOJCIECHOWSKI) «Новые технологии для представления печатных документов в Интернет.» 27.01.2002

2.       Ресурсы глобальной сети Интернет.

 

Designed & Produced by Squash®. Tomsk 2002.