164
совпадают, то значение MSE равно 0. При этом значение метрики возрастает
с количеством искажений в изображении. Значение MSE для видеофрагмента
обычно принимается равным среднему значению MSE по всем кадрам или их
сумме. Данная метрика проста в реализации, имеет высокое быстродействие,
но не адекватна зрительному восприятию. Так, изображение с хорошим
визуальным качеством может интерпретироваться, как плохое, а сильно
искаженное изображение, оценивается, как, хорошее.
PSNR (peak-to-peak signal-to-noise ratio) – метрика,
часто используемая
на практике, называется мерой пикового отношения сигнала к шуму. Она
является инженерным термином, означающим соотношение между
максимумом возможного значения сигнала и мощностью шума,
искажающего значения сигнала. Поскольку многие сигналы имеют широкий
динамический диапазон, PSNR обычно измеряется в логарифмической шкале
и отображаются в децибелах. PSNR наиболее часто используется для
измерения уровня искажений при сжатии видеоданных в различных кодеках.
Проще всего его определить через среднеквадратическое отклонение (
MSE
),
двух
монохромных изображений I и
K размера
m×
n, где одно из которых
считается зашумленным приближением другого и вычисляется так:
2
1
0
1
0
,
,
1
m
i
n
j
j
i
K
j
i
I
mn
MSE
(2)
PSNR определяется так:
MSE
MAX
MSE
MAX
PSNR
I
I
10
2
10
log
20
log
10
(3)
Где
MAX
I
2
— это максимальное значение, принимаемое пикселем
изображения. Когда пиксели имеют разрядность 8 бит,
MAX
I
=255.
Для цветных изображений с тремя RGB компонентами применяется
такое же определение PSNR, но MSE считается по всем трем компонентам и
делится на утроенный размер изображения.
Основным недостатком данного метода является то, что значение
показателя плохо коррелируется с субъективной оценкой. Однако простота
реализации вычисления делает его наиболее распространенным, особенно в
научных публикациях при сравнении различных методов обработки
изображений.
Метрика структурного сходства SSIM (
Structural SIMilarity). Она вычис-
ляются по
более сложным алгоритмам, но считается, что более точно
учитывает особенности восприятия человека.
SSIM является альтернативой PSNR, которая может лучше
коррелировать с ощущаемым качеством сжатого изображения. Высчиты-
вается она следующим образом. Рассматривается
i-ый кадр размером
K×L и
значениями яркостных компонент Y
(i)
k,l
,
k=1÷
K и
l=1÷
L. Выбирается окно
W и
веса W
j
для каждой
j-ой
точки окна,
j=1÷
J, где
J – количество пикселей в
окне. Веса W
j
нормируются на единицу.
На практике, обычно выбирают квадратное окно с весами, распределен-
ными симметрично относительно некоторого центра по Гауссовскому
165
распределению. Для каждой точки данного кадра центр окна размещается в
этой точке. Вычисляются средневзвешенные значения яркостной компо-
ненты исходного и закодированного окна,
средневзвешенные дисперсии
яркостной компоненты исходного и закодированного окна и средневзве-
шенная ковариация между яркостными компонентами исходного и
закодированного окон по следующим формулам:
)
(
)
(
,
1
)
(
,
*
i
j
l
k
J
j
j
i
l
k
Y
w
YAVG
(4)
2
)
(
,
)
(
)
(
,
1
)
(
,
*
2
i
l
k
i
j
l
k
J
j
j
i
l
k
YAVG
Y
w
YVAR
(5)
.
*
*
/
)
(
,
/
)
(
)
(
,
)
(
,
)
(
)
(
,
1
)
(
,
i
l
k
i
j
l
k
i
l
k
i
j
l
k
J
j
j
i
l
k
YAVG
Y
YAVG
Y
w
YCOV
(6)
где Y
(i)
k,l
– значение яркостной компоненты
j-ой точки окна, центр которого
расположен в точке с координатами (
k,
l)
i-ого кадра.
*
)
1
))]
((
)
,
(
]
[[
*
))
((
)
,
(
*
2
((
))
((
,
c
i
l
k
YAVG
i
l
k
YAVG
i
l
k
YSSIM
].
/(([[
))
2
))
((
)
,
(
]
[
*
2
(
YAVG
c
i
l
k
YGOV
(7)
где
2
1
1
)
*
(
Y
MAX
k
c
и
.
)
*
(
2
2
2
Y
MAX
k
c
Y
MAX
–
максимально возможное
значение
Y-компоненты. Например, если для задания одного значения
Y-компоненты используется 8 бит, то максимальное значение равно 255. По
умолчанию коэффициенты
01
,
0
1
k
и
03
,
0
2
k
. Далее вычисленные значения
SSLM усредняются по всем компонентам каждого кадра в отдельности.
Do'stlaringiz bilan baham: