Компрессия статистическими методами, энтропия

Статистические методы компрессии используют статистические свойства сжимаемых данных и присваивают всем символам коды с переменной длиной. Под «статистическими свойствами» обычно понимается вероятность (или, что то же самое, частота появления) каждого символа в потоке данных, однако этот термин может иметь иное, более сложное значение. Пару последовательных символов будем называть биграммом. Долгие наблюдения показали, что в типичном английском тексте некоторые биграммы, например, «ta», «he», «са», встречаются очень часто, а другие, например, «xa»,«hz», «qe», - редко.

Поэтому разумный статистический метод может присваивать коды переменной длины многим биграммам (и даже триграммам), а не только индивидуальным символам. Энтропия. Основы теории информации были заложены Клодом Шеноном в 1948 году в лаборатории Белла. Эта теория оказалась настоящим сюрпризом, поскольку все привыкли воспринимать информацию лишь качественно. Для наших целей сжатия данных нам необходимо освоить только одно теоретико-информационное понятие, а именно, энтропию. Под энтропией символа а, имеют его вероятность Р, подразумевается количество информации, содержащейся в а.

Если задана строка символов этого алфавита, то для нее энтропия определяется аналогично. С помощью понятия энтропии теория информации показывает, как вычислять вероятности строк символов алфавита, и предсказывает ее наилучшее сжатие, то есть, наименьшее, в среднем, число бит, необходимое для представления этой строки символов. Продемонстрируем это на простом примере.

Когда P1 = Р2, необходим по крайней мере один бит для кодирования каждого символа. Это означает, что энтропия достигла своего максимума, избыточность равна нулю, и данные невозможно сжать. Однако, если вероятности символов сильно отличаются, то минимальное число требуемых бит на символ снижается. Мы, скорее всего, не сможем непосредственно предъявить метод сжатия, который использует 0.08 бит на символ, но мы точно знаем, что при P1 = 0.99 такой алгоритм теоретически возможен.

Категория:
-----------------------------