Некоторые особенности сжатия потока аудиоданных
Файл с текстом занимает обычно мало места на диске компьютера. Типичная книга, содержащая около миллиона символов, в несжатом виде будет занимать объем порядка 1 MB, каждому символу будет отведен один байт. Например, книга в 400 страниц, в среднем, по 45 строк из 60 букв на каждой странице будет содержать примерно 60 х 45 х 400 = 1080000 символов или байт.
В отличие от этого, хранение изображений требует гораздо больших объемов, которое придает иное звучание фразе «картина стоит тысяч слов ее описания». В зависимости от числа используемых цветов изображения, один пиксел требует от одного бита до трех байтов. Таким образом, картинка размером 512 х 512 пикселов займет от 32 KB до 768 КВ. С появлением мощных и недорогих персональных компьютеров стали разрабатываться всевозможные мультимедийные приложения и программы, в которых используются тексты, изображения, анимированные фрагменты и звук.
Всю эту разнородную цифровую информацию необходимо хранить в компьютере, отображать, редактировать и проигрывать. Для хранения звука места требуется меньше, чем для изображений и видео, но больше, чем для текста. Вот почему проблема сжатия аудио информации стала весьма актуальной в 1990 годах и привлекла пристальное внимание исследователей.
Эта глава начинается коротким введением о природе звука и методах его оцифровывания. Потом обсуждается строение органов слуха человека и особенности восприятия звука ухом и мозгом, которые позволяют выбрасывать при сжатии большую часть цифровой аудио информации без потери качества воспринимаемого звука. Затем обсуждаются два простых метода сжатия оцифрованного звука, а именно подавление пауз и уплотнение. В конце главы приводится описание популярного метода сжатия звука МРЗ, который является составной частью стандарта MPEG-1.
Для большинства из нас звук является привычным явлением, мы постоянно его слышим. Однако, если попытаться дать точное определение звуку, то быстро выясниться, что сделать это можно с двух различных точек зрения. Интуитивное определение: звук, это ощущения, воспринимаемые нашим ухом и интерпретируемые мозгом определенным образом. Научное определение: звук это колебание среды. Он распространяется в среде с помощью волн давления посредством колебания атомов и молекул.
Обычно мы слышим звук, который распространяется в воздухе и колеблет наши барабанные перепонки. Однако звук может распространятся и во многих других средах. Морские животные способны издавать звуки в воде и откликаться на них. Если ударить молотком по концу металлического рельса, то в нем возникнут звуковые колебания, которые можно обнаружить на другом конце.
Хорошие звуковыми изоляторами разрежены, а наилучшим изолятором служит вакуум, в котором отсутствуют частицы, способные колебаться и передавать возмущения. Одновременно звук можно считать волной, даже если ее частота может все время меняться. Эта волна является продольной; в ней направление возмущения совпадает с направлением распространения волны.
Наоборот, электромагнитные волны и волны в океане являются поперечными. Их колебания направлены перпендикулярно движению волны. Как и любая волна звук имеет три важных атрибута, а именно, скорость, амплитуду и период. Частота волны не является независимым атрибутом, она равна числу периодов волны за единицу времени (одну секунду). Единицей частоты служит герц (Гц).
Скорость звука зависит от свойств среды, в которой он распространяется, а также от температуры. В воздухе на уровне моря (при давлении в одну атмосферу) и при температуре 20° по Цельсию скорость звука равна 343.8 метров в секунду. Человеческое ухо способно воспринимать звук в широком диапазоне частот, обычно, от 20 Гц до 22000 Гц, что зависит от возраста и состояния здоровья человека. Это, так называемый, диапазон слышимых частот.
Некоторые животные, например, собаки и летучие мыши, могут слышать звук более высокой частоты (ультразвук). Простое вычисление дает периоды слышимых звуков. При частоте 22000 Гц период равен около 1.56 см., а при 20 Гц он равен 17.19 м.
Амплитуда звука также важна. Мы воспринимаем ее как громкость. Мы слышим звук, когда молекулы начинают ударять по барабанным перепонкам в ушах и оказывают на них определенное давление. Молекулы перемещаются вперед-назад на крошечное расстояние, которое соотносится с амплитудой, но не с периодом звука.
Период звука может быть равен нескольким метрам, а молекулы при этом смещаются на миллионные доли сантиметра в своих колебаниях. Таким образом, устройство регистрации звуков должно иметь весьма чувствительную диафрагму, чтобы улавливать давление звуковой волны и переводить их в электромагнитные колебания, которые затем будут преобразовываться в цифровую форму. Сложности с измерением интенсивности звука связаны с тем, что наше ухо чувствительно к весьма широкому диапазону уровней громкости (амплитуде) звука.
Уровень грохота пушки и уровень комариного писка может различаться на 11-12 порядков. Если мы обозначим уровень наименьшего слышимого звука (порог слышимости) за 1, то уровень грохота пушки будет равен 1011! Весьма затруднительно работать с таким широким размахом измеряемой величины, поэтому для измерения громкости звука используется логарифмическая шкала. Логарифм 1 равен 0, а десятичный логарифм 1011 равен 11.
Используя логарифмы, можно иметь дело с числами в интервале от 0 до 11. На самом деле, такой интервал маловат, поэтому его принято умножать на 10 или на 20, чтобы работать с числами от 0 до 110 или от 0 до 220. В этом заключается хорошо известный (но иногда вызывающий затруднения с пониманием) метод измерения с помощью децибел. Единица измерения в 1 децибел (дБ) определяется как десятичный логарифм частного между двумя физическими величинами, для которых единицей измерения служит мощность (энергия в единицу времени).
Этот логарифм следует умножить на 10 (Если не делать этого, то получится единица, называемая «бел», которая, впрочем, была давно отброшена в пользу единицы «децибел»). Итак, получаем уровень = 10 log10 — дБ, где Р1 и Р2 - величины, измеренные в единицах мощности, то есть, ватт, джоуль/сек, грамм см/сек или лошадиная сила. Это может быть мощность молекулы, электрическая мощность или еще что-то. При измерении громкости звука применяется единица акустической мощности. Поскольку громкий звук можно произвести с помощью малой энергии, то обычно используется единица микроватт (10~6).
Децибел - это логарифм частного двух величин. В числителе стоит мощность звука, чей уровень громкости мы желаем измерить. В качестве знаменателя принято использовать мощность самого слабого различимого звука (порога слышимости). Из экспериментов было получено, что мощность порога слышимости составляет 10~6 микроватт, то есть, 10-12 ватт. Таким образом, стерео устройство, производящее 1 ватт акустической мощности, имеет уровень громкости.
В теории электричества существует простое соотношение между (электрической) мощностью Р и давлением (напряжением) V. Электрическая мощность равна произведению электрического тока на напряжение Р = I*V. Ток, по закону Ома, пропорционален напряжению, то есть, I = V/R, где R - сопротивление. Следовательно, можно записать, что Р — V2/R и использовать давление (напряжение) при измерениях в децибелах.
На практике не всегда имеется доступ к источнику звука для измерения электрической мощности на выходе. Держа в руках измеритель децибелов звука, можно оказаться в сложном положении при измерении уровня шума вокруг себя. Измеритель децибелов определяет давление, которое оказывают звуковые волны на его диафрагму. К счастью, акустическая мощность на единицу площади пропорциональна квадрату звукового давления.
Это имеет место в силу того, что мощность равна произведению давления и скорости звука, а звук, в свою очередь, можно выразить как давление, деленное на особый импеданс (полное сопротивление) среды, через которую проходит данный звук.
Поэтому громкость звука еще принято измерять в единицах дБ SPL (sound pressure level, уровень звукового давления) вместо мощности звука. Нулевой уровень, измеренный в единицах, дБ PSL соответствует величине 0.0002 дин/см2, где дина - это малая единица силы, равная примерно весу 0.0010197 грамм. Поскольку дина равна 10~5 Н (ньютона), а сантиметр - это 0.01 метра, то нулевой уровень (порог слышимости) равен 0.00002 Н/м2.
Чувствительность уха человека к уровню звука зависит от его частоты. Из опытов известно, что люди более чувствительны к звукам высокой частоты (поэтому сирена воет высокими тонами). Можно слегка модифицировать систему дБ SPL, чтобы она сильнее зависела от высоких частот и слабее от низких.
Такая система называется стандартом dBA. Существуют также стандарты для измерения уровня шума. (В электротехнике применяются также стандарты dBm, dBmO и dBrn; см., например, [Shenio 95]). Из-за применения функции логарифм величины, измеренные в децибелах, нельзя складывать.
Если трубач заиграет после концерта на своей трубе, извлекая звуки, скажем в 70 дБ, а затем к нему присоединится второй музыкант, играя на тромбоне с таким же уровнем звука, то (бедный) слушатель получит удвоение интенсивности звука, но этому будет соответствовать уровень лишь в 73 дБ. Удвоение интенсивности шума приводит к увеличению уровня на 3 единицы (при использовании единиц SPL это число следует удвоить).
- RSS
Наши услуги: