• Последняя часть выражения приобретает смысл выходных сиг
налов о4 узлов первого слоя, и в данном случае эти сигналы яв
ляются входными.
Тем самым нам удалось изящно избежать излишних трудоемких
вычислений, в полной мере воспользовавшись всеми преимуще
ствами симметрии задачи для конструирования нового выражения.
Несмотря на всю ее простоту, это
очень мощная методика, взятая
на вооружение выдающимися математиками и учеными. Овладев
ею, вы, несомненно, произведете на коллег большое впечатление!
Итак, вторая часть окончательного ответа, к
получению которого
мы стремимся (градиент функции ошибки по весовым коэффициен
там связей между входным и скрытым слоями), приобретает следу
ющий вид:
На данном этапе нами получены все ключевые магические выра
жения, необходимые для вычисления искомого градиента, который
мы используем для обновления весовых коэффициентов по резуль
татам обучения на каждом тренировочном примере,
чем мы сейчас
и займемся.
Не забывайте о том, что направление изменения коэффициентов
противоположно направлению градиента, что неоднократно демон
стрировалось на предыдущих диаграммах. Кроме
того, мы сглажи
ваем интересующие нас изменения параметров посредством коэффи
циента обучения, который можно настраивать с учетом особенностей
конкретной задачи. С этим подходом вы также уже сталкивались,
когда при разработке линейных классификаторов мы использова
ли его для уменьшения негативного влияния неудачных примеров
на эффективность обучения, а при минимизации функции ошиб
ки — для того, чтобы избежать постоянных перескоков через мини
мум. Выразим это на языке математики:
118
Глава 1. Как работают нейронные сети
Обновленный вес wjk — это старый вес с учетом отрицательной
поправки, величина которой пропорциональна производной функ
ции ошибки. Поправка записана со знаком “ минус” , поскольку мы
хотим, чтобы вес увеличивался при отрицательной производной
и
уменьшался при положительной, о чем ранее уже говорилось.
Символ
а (альфа) — это множитель, сглаживающий величину изме
нений во избежание перескоков через минимум. Этот коэффициент
часто называют
коэффициентом обучения.
Данное выражение применяется к весовым коэффициентам свя
зей не только между скрытым и выходным, но
и между входным
и скрытым слоями. Эти два случая различаются градиентами функ
ции ошибки, выражения для которых приводились выше.
Прежде чем закончить с этим примером, посмотрим, как будут
выглядеть те же вычисления в матричной записи.
Для этого сделаем
то, что уже делали раньше, — запишем, что собой представляет каж
дый элемент матрицы изменений весов.
Я опустил коэффициент обучения
а, поскольку это всего лишь
константа, которая никак не влияет на то, как мы организуем мат
ричное умножение.
Матрица изменений весов содержит значения поправок к весовым
коэффициентам w.k для
связей между узлом j одного слоя и узлом
к
следующего слоя. Вы видите, что в первой части выражения справа
Do'stlaringiz bilan baham: