308
Сверточные сети
всего сверточного слоя за раз мы можем обучить модель небольшого патча, как сдела-
но в работе Coates et al. (2011) с применением метода
k
средних. Затем параметры этой
обученной на патче модели можно использовать для определения ядер сверточного
слоя. Это означает, что для обучения сверточной сети можно применить обучение без
учителя,
даже не используя в процессе обучения свертку
. При таком подходе можно
обучать очень большие модели, а стоимость вычисления будет высока только на этапе
вывода (Ranzato et al., 2007b; Jarrett et al., 2009; Kavukcuoglu et al., 2010; Coates et al.,
2013). Эта идея была очень популярна с 2007 по 2013 год, когда размеченные наборы
данных были невелики, а вычислительные ресурсы ограничены. Сегодня большин-
ство сверточных сетей обучают в режиме чистого обучения с учителем, производя на
каждой итерации полное прямое и обратное распространения по всей сети.
Как и в других подходах к предобучению без учителя, трудно разделить причины
некоторых достоинств этой методики. Предобучение без учителя может как обеспе-
чить частичную регуляризацию, по сравнению с обучением с учителем, так и просто
дать возможность обучать гораздо более масштабные архитектуры вследствие сниже-
ния вычислительной стоимости правила обучения.
9.10. Нейробиологические основания
сверточных сетей
Сверточные сети – пожалуй, самый яркий пример успешного применения биотех-
нологического искусственного интеллекта. Хотя на них оказали влияние и многие
другие научные дисциплины, некоторые ключевые принципы были почерпнуты из
нейробиологии.
История сверточных сетей начинается с нейробиологических экспериментов,
поставленных задолго до создания соответствующих компьютерных моделей. Ней-
рофизиологи Давид Хубель и Торстен Визель в течение нескольких лет совместно
установили большинство основных фактов, касающихся работы зрительной систе-
мы млекопитающих (Hubel and Wiesel, 1959, 1962, 1968). За свои достижения они
были отмечены Нобелевской премией. Их открытия, оказавшие огромное влияние
на современные модели глубокого обучения, были основаны на регистрации актив-
ности отдельных нейронов в мозге кошек. Они наблюдали, как нейроны реагируют
на изображения, проецируемые точно на определенные участки экрана, расположен-
ного перед кошкой. Важнейшее открытие состояло в том, что нейроны первичных
зрительных центров сильнее реагируют на очень специфические зрительные паттер-
ны, например точно ориентированные полоски, и гораздо слабее – на все остальные
паттерны.
Их работа помогла охарактеризовать многие аспекты функционирования мозга,
выходящие за рамки этой книги. С точки зрения глубокого обучения, нас интересует
в основном упрощенная, схематическая картина.
И в этой упрощенной картине мы сосредоточимся на области мозга, которая на-
зывается зоной V1, или
Do'stlaringiz bilan baham: |