404
Приложения
пользователя или признаки продукта. Рекомендательные системы, в которых такая
информация используется, называются
системами фильтрации по содержимому
.
Отображение подробного набора признаков пользователей или продуктов на погру-
жение можно обучить, применив архитектуру глубокого обучения (Huang et al., 2013;
Elkahky et al., 2015).
Для выделения признаков из сложного содержимого, например из музыкальных
треков для рекомендования музыки, также применялись специализированные архи-
тектуры глубокого обучения, в частности сверточные сети (van den O
ö
rd et al., 2013).
В этой работе сверточная сеть принимала на входе акустические признаки и вычис-
ляла векторное представление соответствующей песни. Затем скалярное произведе-
ние векторных представлений песни и пользователя использовалось, чтобы предска-
зать, будет пользователь слушать песню или нет.
12.5.1.1. Исследование и использование
В задаче выработки рекомендаций для пользователей возникает проблема, выходя-
щая за рамки обычного обучения с учителем в плоскость обучения с подкреплением.
Многие проблемы рекомендования теоретически точнее всего описываются как
кон-
текстуальные бандиты
(Langford and Zhang, 2008; Lu et al., 2010). Проблема в том, что
при использовании рекомендательной системы для сбора данных мы получаем сме-
щенное и неполное представление о предпочтениях пользователей: мы видим откли-
ки пользователей только на те продукты, что им были рекомендованы, а все прочие
остаются за кадром. Кроме того, в некоторых случаях мы можем не получить вообще
никакой информации о пользователях, которым не было дано рекомендаций (напри-
мер, на аукционе рекламы может случиться, что цена, предложенная за размещение
объявления, ниже минимальной цены или не стала победителем, так что объявление
не показано вовсе). Важно, что у нас нет информации о том, что случилось бы, если
бы были рекомендованы какие-то другие продукты. Тут можно провести аналогию
с обучением классификатора, когда для каждого обучающего примера
x
выбирается
один класс
y
ˆ (обычно класс с наибольшей вероятностью согласно модели) и в каче-
стве обратной связи мы узнаем только, правильный это класс или нет. Очевидно, что
каждый пример несет меньше информации, чем в случае обучения с учителем, когда
известна истинная метка
y
, поэтому необходимо больше примеров. Хуже того, если не
проявить осторожность, то можно получить систему, которая будет принимать невер-
ные решения, сколько бы данных ни подать ей на вход, потому у правильного реше-
ния изначально была очень низкая вероятность: пока обучаемая система не выберет
это правильное решение, она не узнает, что оно правильно. Это похоже на ситуацию
в обучении с подкреплением, когда наблюдаемой величиной является только возна-
граждение за выбранное действие. В общем случае обучение с подкреплением может
содержать последовательность из многих действий и многих вознаграждений. Сцена-
рий с бандитами – это частный случай обучения с подкреплением, когда обучаемый
предпринимает единственное действие и получает единственное вознаграждение.
Проблема бандита проще в том смысле, что обучаемый знает, какое вознаграждение
с каким действием ассоциировано. В общем же случае большое или малое вознаграж-
дение может быть вызвано как недавним действием, так и действием в отдаленном
прошлом. Термин «контекстуальные бандиты» относится к случаю, когда действие
предпринято в контексте некоторой входной переменной, которая может повлиять
на решение. Например, мы знаем как минимум идентификатор пользователя и хо-
тим выбрать для него продукт. Отображение контекста на действие называют также
Другие приложения
Do'stlaringiz bilan baham: |