Потери при сжатии изображений, различие текста и изображения

Приведем простой тест на качественное определение потери информации при сжатии изображения. Пусть данный образ А (1) сжат в В, (2) разжат в С, и (3) их разница обозначена D = С - А. Если А был сжат без потери информации и разжат подобающим образом, то С должен быть идентичен D, и образ D должен быть равномерно белым. Чем больше информации потеряно, тем дальше будет D от равномерно белого образа. Так как же все-таки следует сжимать изображения? До этого момента мы рассматривали три подхода к задаче компрессии: это RLE, статистический метод и словарный метод. Неявно предполагалось, что эти методы применимы к данным любой природы, но из практических наблюдений мы заметили, что лучше всего эти методы работают при сжатии текстов. Поэтому новые методы сжатия должны учитывать три основных различия между текстами и графическими изображениями.

Текст одномерен, а изображение имеет размерность 2. Весь текст можно рассматривать как одну длинную строку символов. Каждая буква текста имеет двух соседей, слева и справа. Все соседи весьма слабо коррелированы между собой. Например, в этом абзаце букве «и» предшествуют буквы «н», «р», «л», «с», «п», а за ней следуют буквы «е», «в», «н», «м», «р». В других абзацах та же буква «и» может иметь других соседей. В изображении пиксел имеет четырех непосредственных соседей и восемь ближайших (за исключением пикселов, лежащих на границе, где восемь ближайших соседей пиксела «*» показаны черным цветом), и между ними существует сильная корреляция.

Текст состоит из относительно небольшого числа символов алфавита. Обычно, это 128 кодов ASCII или 256 байтов длины по 8 бит каждый. Наоборот, каждый пиксел изображения представим 24 битами, поэтому может быть до 16 миллионов различных пикселов. Значит, число элементарных «символов» в изображении может быть огромным. Не известен алгоритм, который определял бы, какая часть текста является неважной или малозначимой, и ее можно удалить без ущерба для всего текста, но существуют методы, которые автоматически удаляют неважную информацию из графического образа. Этим достигается значительна степень компрессии. Таким образом, методы сжатия текстовой информации становятся малоэффективными и неудовлетворительными при работе с изображениями.

Поэтому нам нужны совершенно другие подходы к решению этой задачи. Они различны, но все они удаляют избыточность с использованием следующего принципа. Принцип сжатия изображений. Если случайно выбрать пиксел изображения, то с большой вероятностью ближайшие к нему пикселы будут иметь тот же или близкий цвет. Итак, сжатие изображений основывается на сильной корреляции соседних пикселов. Эта корреляция также называется пространственной избыточностью.

-----------------------------