Прогресс в области сетевых архитектур
По мере того как с развитием науки фокус исследований переместился с много-уровневых сетей прямого распространения к новым архитектурам типа СНС
рекуррентных нейронных сетей, изменениям подверглись организация слоев, конструирование нейронов и способы соединения слоев. Сетевые архитектуры эволюционировали с учетом конкретных типов входных данных.
Новые типы слоев. С появлением новых типов архитектур увеличилось и раз-нообразие слоев. Глубокие сети доверия (ГСД, англ. DBN) доказали успешность, когда в качестве слоев для предобучения использовались ограниченные машины Больцмана (ОМБ, англ. RBM). В СНС использовались новые типы функций акти-вации в слоях и изменился способ соединения слоев (вместо полносвязных стали применяться локально связные слои). В рекуррентных нейронных сетях приме-нялись связи, которые позволяют лучше моделировать время в данных, представ-ляющих собой временные ряды.
Новые типы нейронов. Прогресс в создании новых типов нейронов (блоков) особенно заметен в рекуррентных нейронных сетях, построенных на базе LSTM-сетей. Именно здесь появились такие блоки, как ячейка LSTM-памяти и вентиль-
ные рекуррентные блоки (Gated Recurrent Units – GRU).
Определение глубокого обучения 89
Гибридные архитектуры. Если речь зашла о зависимости архитектуры от типа входных данных, то нельзя не отметить появления гибридных архитектур для данных, в которых одновременно присутствуют временной аспект и изобра-жение. Например, благодаря объединению СНС и рекуррентных нейронных сетей
одну гибридную сеть удалось классифицировать объекты в видеоряде. В неко-торых случаях гибридные архитектуры нейронных сетей позволяют взять лучшее из обоих миров.
От конструирования признаков к автоматическому обучению признакам
Хотя глубокие сети и обогатились новыми видами внутренних блоков и слоев,
конечном итоге они увенчиваются дискриминантным классификатором, на вход которого подаются сконструированные признаки. Автоматическое выде-ление признаков – то общее, что роднит различные архитектуры. В каждой ар-хитектуре признаки конструируются по-своему, в соответствии с ее специали-зацией на определенных типах данных. Ян Лекун в своем описании глубокого обучения выразил эту мысль, упомянув «машины, которые учатся представлять мир».
Джеффри Хинтон упоминает эту тему в статье о ГСД, где объясняет, что ограни-ченные машины Больцмана используются для разложения данных на признаки высшего порядка12.
Do'stlaringiz bilan baham: |