Часть IV • Резюме и заключительное слово
13.1.3. Общая картина глубокого обучения
В глубоком обучении больше всего удивляет его простота, если учесть, насколько
хорошо оно работает, в то время как предшествовавшие ему гораздо более сложные
методики машинного обучения демонстрировали намного худшие результаты.
Десять лет назад никто не ожидал таких потрясающих результатов в задачах ма
шинного восприятия от простых параметрических моделей, обученных с помощью
градиентного спуска. Теперь же оказалось, что для успеха хватит всего лишь доста
точно большой параметрической модели, обученной на основе градиентного спуска,
и большого набора обучающих примеров данных. Как однажды сказал о Вселенной
Ричард Фейнман, «она не сложна, просто очень велика»
1
.
В глубоком обучении все данные представляются в виде рядов чисел — другими
словами,
векторов
. Вектор можно считать
точкой
в
геометрическом пространстве
.
Входные сигналы моделей (табличные данные, изображения, текст и т. д.) сначала
преобразуются в векторы, то есть набор точек во входном векторном пространстве.
Аналогичным образом целевые величины (метки) также преобразуются в соответ
ствующие векторы — набор точек в целевом векторном пространстве. Цепочка слоев
нейронной сети осуществляет сложное геометрическое преобразование, состоящее
из ряда простых геометрических преобразований, которое ставит точкам во входном
векторном пространстве точки в целевом векторном пространстве. Параметрами этого
преобразования служат весовые коэффициенты слоев, обновляемые на каждом шаге
в зависимости от того, насколько хорошие результаты демонстрирует преобразование
в настоящий момент. Ключевая характеристика этого геометрического преобразования,
благодаря которой и возможен градиентный спуск, — его
дифференцируемость
.
13.1.4. Ключевые технологии, благодаря которым
возможно глубокое обучение
Нынешняя революция глубокого обучения не началась за один день, а, как и все
прочие революции, является результатом постепенного накопления множества
факторов — сначала медленного, а потом резко ускорившегося, когда накопилась
критическая их масса. В случае глубокого обучения можно отметить следующие
ключевые факторы.
z
z
Постепенные разработки новых алгоритмов, сначала нечастые, растянувшиеся
на два десятилетия
2
, а затем существенно ускорившиеся после 2012 года, когда
в этом направлении начали вести более активную исследовательскую работу
3
.
1
Ричард Фейнман, интервью «Мир с другой точки зрения» (The World from Another Point
of View // Yorkshire Television, 1972.)
2
Начиная с изобретения обратного распространения ошибки Румельхартом, Хинтоном
и Уильмсом, сверточных слоев Ле Куном и Бенжио, а также сверточных сетей Грейвсом
и Шмидтхубером.
3
Например, появились усовершенствованные методы инициализации весовых коэффици
ентов, новые функции активации, дропаут, нормализация по батчам, остаточные связи.
Do'stlaringiz bilan baham: |