Метрики ошибок для разработки методов сжатия изображений

Разработчикам методов сжатия изображений с частичной потерей информации необходимы стандартные метрики для измерения расхождения восстановленных изображений и исходных изображений. Чем ближе восстановленный образ к исходному, тем больше должна быть эта метрика (ее удобно называть «метрикой сходства»). Эта метрика должна быть безразмерной и не слишком чувствительной к малым изменениям восстанавливаемого изображения. Общепринятой величиной, используемой для этих целей, служит пиковое отношение сигнал/шум (PSNR) (peak signal to noise ratio). Оно известно всем, кто работает в этой области, его легко вычислять, но оно имеет достаточно ограниченное, приближенное отношение к расхождениям, которые обнаруживаются органами зрения человека. Высокое значение PSNR означает определенную схожесть реконструированного и исходного изображений, но оно не дает гарантию того, что зрителю понравится восстановленный образ. Обозначим через Pi пикселы исходного изображения, а пикселы восстановленного изображения пусть будут Qi.

Для двухуровневых изображений числитель равен 1. Для полутоновых образов, пикселы которых состоят из 8 битов, числитель равен 255. Для изображений используется только компонента цветности. Чем больше схожесть между образами, тем меньше величина RMSE, а, значит, больше PSNR. Число PNSR безразмерно, поскольку единицами измерения и числителя, и знаменателя служат величины пикселов. Тем не менее, из-за использования логарифмов говорится, что число PSNR измеряется в децибелах.

Использование логарифмов сглаживает RMSE, делает эту величину менее чувствительной. Например, деление RMSE на 10 означает умножение PSNR на 2. Отметим, что PSNR не имеет абсолютного значения. Бессмысленно говорить, что если PSNR равно, скажем, 25, то это хорошо. Величины PSNR используются только для сравнения производительности различных методов сжатия и для изучения влияния разных параметров на производительность того или иного алгоритма. К примеру, комитет MPEG использует субъективный порог PSNR = 0.5 дБ при включении кодовой оптимизации, поскольку считает, что улучшение на эту величину будет заметно глазу. Обычно, величина PSNR варьируется в пределах от 20 до 40. Если значения пикселов находятся в интервале [0,255], то RMSE, равное 25.5, дает PSNR, равное 20, а при RMSE равном 2.55 величина PSNR - 40. Значение RMSE равное нулю (совпадение изображений), дает для PSNR результат бесконечность (более точно, неопределенность). При RMSE равном 255 число PSNR равно О, а если RMSE больше, чем 255, то PSNR будет отрицательным. Читателю будет полезно ответить на следующий вопрос: если максимальное значение пиксела равно 255, может ли RMSE быть больше 255? Ответ будет «нет».

Другой подход к сравнению оригинального и восстановленного изображения состоит в построении разностного изображения и оценивании его качества визуальным наблюдением. Интуитивно разностное изображение равно Di — Pi — Qi, однако такой образ трудно оценить на глаз, так как значения пикселов Di являются малыми числами. Если нулевое значение соответствует белому цвету, то такой разностный образ будет почти невиден.

Наоборот, если нуль соответствует черному цвету, то разность будет слишком темной для выработки точного суждения. Параметр а нужен для увеличения малых разностей, а 6 сдвигает разностный образ из крайне белого в сторону черного в область комфортного для глаза серого цвета.

-----------------------------