Почему СГС называется «стохастическим»?
Это связано с тем, что градиент вычисляется для одного обучающего примера (или мини-пакета обучающих примеров). Вычисленный градиент – это «зашумленная» аппроксимация истинного градиента, но СГС все же сходится, причем заметно быстрее.
Достоинства СГС – простота реализации и высокая скорость обработки больших наборов данных. Для настройки СГС можно изменять скорость обучения (напри-мер, в рассматриваемом далее методе Adagrad) или использовать информацию второго порядка (т. е. гессиан), как будет показано ниже. Популярность СГС для обучения нейронных сетей объясняется также его устойчивостью к зашумленным обновлениям. Иными словами, построенные с его помощью модели хорошо обоб-щаются.
Другие факторы, влияющие на скорость обучения
Стоит отметить, что на скорость обучения может влиять также применение таких методов, как импульс или RMSProp.
Методы второго порядка
Во всех методах второго порядка вычисляется гессиан или его аппроксимация. Как уже было сказано, мы можем считать гессиан производной якобиана. То есть это матрица вторых производных – «ускорение, а не скорость». Цель гессиана – опи-сать кривизну в каждой точке якобиана. К методам второго порядка относятся:
98 Основания глубоких сетей
BFGS с ограниченной памятью (L-BFGS)18; метод сопряженных градиентов19; безгессианная оптимизация20.
Рассматривайте эти алгоритмы оптимизации как черный ящик, позволяющий найти наилучший путь к минимальной ошибке при заданной целевой функции и способе определения градиента.
Компромиссы при оптимизации
Главное различие между методами первого и второго порядков состоит в том, что методы второго порядка сходятся за меньшее число шагов, но каждый шаг требует большего объ-ема вычислений.
L-BFGS. Алгоритм L-BFGS принадлежит семейству квазиньютоновских ме-тодов. Это вариант алгоритма Бройдена–Флетчера–Гольдфарба–Шанно (BFGS)
ограничением на часть градиента, хранящуюся в памяти. Это значит, что алго-ритм не вычисляет полную матрицу Гессе, что было бы дороже с вычислительной точки зрения.
L-BFGS аппроксимирует обратную матрицу Гессе, чтобы направить поиск весов в наиболее многообещающие области пространства параметров. Если в BFGS хра-нится полная обратная матрица градиента размера n × n, то в L-BFGS от гессиана сохраняется лишь несколько векторов, дающих приближенную информацию вто-рого порядка. На практике L-BFGS и метод сопряженных градиентов могут ока-заться быстрее и устойчивее стохастического градиентного спуска.
Do'stlaringiz bilan baham: |