15.6 Машинное обучение нейронной сети на примерах
15.6.1 Обучение на примерах
Обучение классической нейронной сети состоит в подстройке весовых
коэффициентов каждого нейрона.
Пусть имеется набор пар векторов {x
α
, y
α
}, α = 1..p, называемый
обучающей выборкой, состоящей из p объектов.
Вектор {x
α
} характеризует систему признаков конкретного объекта α
обучающей выборки, зафиксированную S-элементами.
Вектор {y
α
} характеризует картину возбуждения нейронов при
предъявлении нейронной сети конкретного объекта α обучающей
выборки [1]:
146
Будем называть нейронную сеть обученной на данной обучающей
выборке, если при подаче на вход сети вектора {x
α
} на выходе всегда
получается соответствующий вектор {y
α
} т.е. каждому набору признаков
соответствуют определенные классы.
Ф.Розенблаттом предложен итерационный алгоритм обучения из 4-х
шагов, который состоит в подстройке матрицы весов, последовательно
уменьшающей ошибку в выходных векторах [1]:
Шаг 0:
Начальные
значения
весов
всех
нейронов
полагаются
случайными.
Шаг 1:
Сети
предъявляется
входной
образ
x
α
,
в
результате
формируется выходной образ.
Шаг 2:
Вычисляется вектор ошибки, делаемой сетью на выходе.
Шаг 3:
Вектора весовых коэффициентов корректируются таким
образом, что величина корректировки пропорциональна
ошибке на выходе и равна нулю если ошибка равна нулю:
– модифицируются
только
компоненты
матрицы
весов,
отвечающие ненулевым значениям входов;
– знак приращения веса соответствует знаку ошибки, т.е.
положительная ошибка (значение выхода меньше требуемого)
проводит к усилению связи;
– обучение каждого нейрона происходит независимо от
обучения остальных нейронов, что соответствует важному с
биологической точки зрения, принципу локальности обучения.
Шаг 4:
Шаги 1-3 повторяются для всех обучающих векторов. Один
цикл
последовательного
предъявления
всей
выборки
называется эпохой. Обучение завершается по истечении
нескольких эпох, если выполняется по крайней мере одно из
условий:
– когда итерации сойдутся, т.е. вектор весов перестает
изменяться;
– когда
полная
просуммированная
по
всем
векторам
абсолютная ошибка станет меньше некоторого малого
147
значения.
Данный метод обучения был назван Ф.Розенблаттом «методом
коррекции с обратной передачей сигнала ошибки». Имеется в виду передача
сигнала ошибка от выхода сети на ее вход, где и определяются, и
используются весовые коэффициенты. Позднее этот алгоритм назвали «α-
правилом».
Рисунок 15.6 - Обучение классической нейронной сети
Данный алгоритм относится к широкому классу алгоритмов обучения с
учителем, т.к. в нем считаются известными не только входные вектора, но и
значения выходных векторов, т.е. имеется учитель, способный оценить
правильность ответа ученика, причем в качестве последнего выступает
нейронная сеть.
Розенблаттом доказана «Теорема о сходимости обучения» по α-правилу.
Эта теорема говорит о том, что персептрон способен обучится любому
обучающему набору, который он способен представить. Но она ничего не
говорит о том, какие именно обучающие наборы он способен представить.
Эти алгоритмы обучения с учителем можно интерпретировать как
итерационное изменение положения разделяющей гиперплоскости при
обнаружении примеров неправильной классификации (рисунок 15.7).
148
-
-
-
-
-
+
+
+
+
+
+
+
+
-
-
-
w
w
’
w
’
w
w w-h
w w+h
Рисунок 15.7 – Интерпретация обучения НС как итерационного изменение
положения разделяющей гиперплоскости при обнаружении примеров
неправильной классификации
Применяемые в настоящее время алгоритмы обучения можно
интерпретировать как методы оптимизации. Для того их построения
вводится функция оценивания (cost function), характеризующая величину
невязки между реальным (
y
)
и желаемым (
t
) выходами сети (персептрона):
2
2
1
1
1
1
( )
(
)
(
)
2
2
L
L
l
l
l
l
l
l
E W
y
t
Wx
t
L
L
,
и используется тот или иной метод поиска ее минимума.
Обычно применяется метод градиентного спуска, при котором
изменение весов связей можно записать в виде
ij
ij
E
w
w
.
При выборе функции оценивания в квадратичной форме она
соответствует некоторому параболоиду в многомерном пространстве весов
связей. Но, хотя такая поверхность имеет единственный минимум, он как
правило расположен на дне длинного «оврага». При этом обучение
становится неприемлемо медленным, а вблизи дна оврага возникают
осцилляции (рисунок 15.8). Приходится вводить специальные меры для
ускорения процесса сходимости (например, метод моментов) - рисунок 15.9.
149
Рисунок 15.8 – Фазовая траектория
функции оценивания при методе
градиентного спуска
Рисунок 15.9 – Фазовая траектория
функции оценивания при
использовании мер ускорения
сходимости
Do'stlaringiz bilan baham: |