y
по такому представлению. Мы
также видим, что условное распределение
y
при условии
x
по правилу Байеса связано
с компонентами в уравнении выше:
(15.3)
Таким образом, безусловная вероятность
p
(
x
) тесно связана с условной вероят-
ностью
p
(
y
|
x
), и знание структуры первой должно помочь при обучении послед-
ней. Следовательно, в ситуациях, отвечающих сформулированным предположениям,
обуче ние с частичным привлечением учителя должно повысить качество.
Важная исследовательская проблема связана с тем фактом, что у большинства
наблю дений чрезвычайно много объясняющих причин. Допустим, что
y
= h
i
, но
обучае мая без учителя модель не знает, какой именно фактор h
i
. Решение в лоб –
обучить без учителя представление, которое улавливает
все
сколько-нибудь выра-
женные порождающие факторы h
j
и отделяет их друг от друга, так что становится
легко предсказать
y
по
h
вне зависимости от того, какой h
i
ассоциирован с
y
.
На практике такое лобовое решение не годится, потому что невозможно выделить
все или хотя бы большую часть факторов вариативности, оказывающих влияние на
наблюдение. Например, если имеется визуальная сцена, то должно ли представление
кодировать самые мельчайшие объекты на заднем плане? Хорошо известен психоло-
гический феномен – человек не воспринимает изменений в окружающей среде, если
они не относятся непосредственно к тому делу, которым он занимается, – см., напри-
мер, Simons and Levin (1998). На переднем крае обучения с частичным привлечением
учителя находится вопрос о том, что же кодировать в конкретной ситуации. В настоя-
щее время есть две основные стратегии обращения с большим числом обусловливаю-
щих причин: одновременно использовать сигналы обучения с учителем и без учите-
ля, так чтобы модель выбрала наиболее релевантные факторы вариативности, или
брать гораздо более объемные представления в режим чистого обучения без учителя.
Постепенно вырисовывается стратегия обучения без учителя – изменить опреде-
ление того, какие объясняющие причины являются самыми выраженными. Истори-
чески автокодировщики и порождающие модели обучались оптимизировать фикси-
рованный критерий, зачастую похожий на среднеквадратическую ошибку. Именно
такие критерии и определяют, что считать выраженными причинами. Например,
среднеквадратическая ошибка в применении к пикселям изображения неявно озна-
чает, что объясняющая причина является выраженной, только если она сильно изме-
няет яркость большого числа пикселей. Это может стать проблемой, если решаемая
задача подразумевает взаимодействие с малыми объектами. На рис. 15.5 приведен
пример робототехнической задачи, в которой автокодировщик не смог научиться ко-
дировать мячик для игры в настольный теннис. Но тот же самый робот успешно взаи-
модействует с более крупными объектами, например бейсбольными мячами, которые
более выражены в терминах среднеквадратической ошибки.
Возможны и другие определения выраженности. Например, если группа пикселей
образует легко распознаваемый паттерн, пусть даже не экстремально яркий или тем-
ный, то такой паттерн можно было бы счесть чрезвычайно выраженным. Чтобы реа-
лизовать такое определение выраженности, можно воспользоваться недавно появив-
Do'stlaringiz bilan baham: |