Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
входного изображения. Затем модифицировать только «измерение улыбки» вектора;
и наконец, пропустить модифицированный латентный вектор через декодировщик.
Рис. 10.5.
«Измерение улыбки». Пример усвоения автокодировщиком нужной структуры
в латентном пространстве
К сожалению,
классические автокодировщики
с приведенной на рис. 10.4 ар
хитектурой не приводят к полезным или удобно структурированным латентным
пространствам. Поэтому к 2013 году они по большей части вышли из моды. VAE,
изобретенные почти одновременно Дидериком Кингма и Максом Веллингом в де
кабре 2013 года
1
и Данило Резенде, Шакиром Мохамедом Shakir Mohamed и Даа
ном Вестрой в январе 2014го
2
, дополняют автокодировщики небольшой толикой
статистической магии, в результате чего модели могут усваивать непрерывные
и высокоструктурированные латентные пространства. VAE оказались чрезвычайно
многообещающим типом генеративных моделей для изображений.
Вместо того чтобы сжимать входное изображение в фиксированный вектор в ла
тентном пространстве, VAE превращают его в параметры статистического распреде
ления — а именно,
гауссовского распределения
. Как вы помните из школьного курса
математики, у гауссовского распределения есть два параметра — математическое
ожидание и дисперсия (или, что эквивалентно, среднеквадратичное отклонение).
VAE отображает каждое входное изображение в математическое ожидание этого рас
пределения. Единственная сложность: математическое ожидание и дисперсия могут
быть многомерными, если число измерений латентного пространства больше 1, как
мы видели в предыдущем примере. По существу, мы полагаем, что изображения
сгенерированы в ходе стохастического процесса, и хотим учитывать случайность
этого процесса во время кодирования и декодирования. VAE использует параметры
математического ожидания и дисперсии для случайной выборки одного вектора
из распределения и декодирует его снова до размеров исходного входного сигнала
(рис. 10.6). Во многом именно изза этой стохастичности повышается устойчивость
VAE к ошибкам и обеспечивается кодирование латентным пространством во всех
точках осмысленных представлений: каждая выбранная точка в латентном простран
стве при декодировании декодировщиком должна представлять собой допустимое
выходное изображение.
1
Kingma D. P., Welling M.
AutoEncoding Variational Bayes // submitted 20 Dec. 2013. https://
arxiv.org/abs/1312.6114.
2
Rezende D. J., Mohamed S., Wierstra D.
Stochastic Backpropagation and Approximate Inference
in Deep Generative Models // submitted 16 Jan. 2014. https://arxiv.org/abs/1401.4082.
Do'stlaringiz bilan baham: |