x
= (
A
⏉
A
+ 2
λ
I
)
–1
A
⏉
b
.
(4.26)
Абсолютную величину
λ
следует выбирать так, чтобы результат удовлетворял
ограничению. Чтобы найти такое значение, можно выполнить градиентный подъем
по
λ
. Для этого заметим, что
(4.27)
Когда норма
x
превышает 1, эта производная положительна, поэтому, чтобы под-
ниматься вверх в направлении производной и увеличивать лагранжиан относительно
λ
, мы увеличиваем
λ
. Поскольку штрафной коэффициент при
x
⏉
x
увеличился, разре-
шение линейного уравнения относительно
x
теперь даст решение с меньшей нормой.
Процесс решения линейного уравнения и корректировки
λ
продолжается до тех пор,
пока норма
x
не окажется допустимой и производная по
λ
не станет равна 0.
На этом мы завершаем обзор математического аппарата, который понадобится для
разработки алгоритмов машинного обучения. Все готово к построению и анализу
полноценных систем обучения.
Глава
5
Основы
машинного обучения
Глубокое обучение – частный случай машинного обучения. Чтобы хорошо пони-
мать глубокое обучение, нужно как следует усвоить основные принципы машинного
обуче ния. В этой главе кратко излагаются самые важные общие принципы машин-
ного обучения, которые найдут применение в остальной части книги. Читателям,
совсем незнакомым с предметом или желающим получить более широкое представ-
ление о нем, рекомендуем учебники, в которых фундаментальные основы рассматри-
ваются более подробно, например Murphy (2012) или Bishop (2006). Если вы уже зна-
комы с машинным обучением, можете сразу перейти к разделу 5.11, где обсуждаются
некоторые взгляды на традиционное машинное обучение, оказавшие значительное
влияние на разработку алгоритмов глубокого обучения.
Начнем с определения алгоритма обучения и приведем пример: алгоритм линей-
ной регрессии. Затем опишем, чем проблема соответствия обучающим данным отли-
чается от проблемы поиска закономерностей, которые обобщаются на новые данные.
У большинства алгоритмов машинного обучения есть настройки, которые называ-
ются
гиперпараметрами
и должны определяться вне самого алгоритма обучения; мы
обсудим, как задавать их с помощью дополнительных данных. Машинное обучение
по сути своей является вариантом прикладной статистики, когда особый упор делает-
ся на использовании компьютеров для статистического оценивания сложных функ-
ций, а меньше внимания уделяется определению доверительных интервалов для этих
функций. Поэтому мы представим два основных подхода к статистике: частотные
оценки и байесовский вывод. Большинство алгоритмов машинного обучения можно
отнести к одной из двух категорий: с учителем и без учителя; мы опишем, что это
значит, и приведем примеры простых алгоритмов из каждой категории. Большин-
ство алгоритмов глубокого обучения основано на алгоритме оптимизации, который
называется стохастическим градиентным спуском. Мы покажем, как алгоритм глу-
бокого обучения собирается из составных частей: алгоритма оптимизации, функции
стоимости, модели и набора данных. Наконец, в разделе 5.11 мы опишем некоторые
факторы, ограничивающие способность традиционного машинного обучения к обоб-
щению. Именно стремление преодолеть эти проблемы и стало побудительным моти-
вом к разработке алгоритмов глубокого обучения.
Алгоритмы обучения
Do'stlaringiz bilan baham: |