первичной зрительной корой
. Это первая область мозга, ко-
торая начинает значимую обработку зрительной информации. Не вдаваясь в детали,
скажем, что изображение формируется благодаря попаданию в глаз света, который
стимулирует сетчатку, светочувствительный орган, составляющий внутреннюю обо-
лочку глаза. Нейроны сетчатки выполняют простую предобработку изображения,
Нейробиологические основания сверточных сетей
309
но не слишком сильно изменяют способ его представления. Затем изображение по
зрительному нерву поступает в область мозга, которая называется
латеральным ко-
ленчатым телом
. Главная интересующая нас задача обоих этих анатомических обра-
зований – передать сигнал из глаза в зону V1, расположенную на затылке.
Слой сверточной сети улавливает три свойства зоны V1:
1) зона V1 организована в виде пространственной карты. Она имеет двумерную
структуру, повторяющую структуру изображения на сетчатке. Так, свет, падаю-
щий на верхнюю половину сетчатки, воздействует только на соответствующую
половину зоны V1. Сверточная сеть улавливает это свойство, поскольку ее при-
знаки определены в терминах двумерных карт;
2) зона V1 состоит из большого числа
простых клеток
. Активность клетки мож-
но до некоторой степени охарактеризовать линейной функцией изображения
в малом пространственно локализованном рецептивном поле. Детекторные
блоки сверточной сети призваны имитировать именно эти свойства простых
клеток;
3) в зоне V1 имеется также много
сложных клеток
. Они реагируют на признаки,
похожие на детектируемые простыми клетками, но инвариантны относительно
небольших изменений в положении признаков. Отсюда берут начало пулинго-
вые блоки сверточных сетей. Сложные клетки инвариантны также относитель-
но некоторых изменений освещения, которые невозможно уловить с помощью
простого агрегирования по пространственным областям. Эти виды инвариант-
ности стали причиной некоторых стратегий межканального пулинга в сверточ-
ных сетях, например maxout-блоков (Goodfellow et al., 2013a).
Хотя мы знаем в основном о зоне V1, общее мнение склоняется к тому, что те же
базовые принципы применимы и к другим частям зрительной системы. В нашем
упрощенном представлении базовая стратегия детектирования, сопровождаемая
пулингом, снова и снова применяется по мере продвижения вглубь мозга. Пройдя
через многие анатомические уровни мозга, мы наконец обнаруживаем клетки, кото-
рые реагируют на специфические концепции и инвариантны относительно многих
преобразований входной информации. Эти клетки получили название «бабушкиных
клеток»
1
, напоминающее о том, что может существовать нейрон, который активиру-
ется, когда человек видит изображение своей бабушки, вне зависимости от того, рас-
положено оно справа или слева в поле зрения, содержит только увеличенное лицо
или всю фигуру, ярко освещено или находится в тени и т. д.
Доказано, что такие бабушкины клетки действительно существуют в мозге чело-
века, в области, которая называется
медиальной височной долей
(Quiroga et al., 2005).
Ученые проверяли, какие нейроны реагируют на фотографии известных личностей.
Обнаружился так называемый «нейрон Холли Берри», который активируется кон-
цепцией этой актрисы. Этот нейрон возбуждается, когда человек видит фотографию
Холли Берри, рисунок Холли Берри или даже текст со словами «Холли Берри».
Разуме ется, в самой Холли Берри нет ничего особенного; другие нейроны реагируют
на присутствие Билла Клинтона, Дженнифер Энистон и т. д.
Нейроны медиальной височной доли несколько более общие, чем современные
сверточные сети, которые не могут автоматически обобщаться для идентификации
1
Официальное русскоязычное название — «нейроны графических объектов», или «аффе-
рентно-инвариантные нейроны объектов». –
Прим. перев.
Do'stlaringiz bilan baham: |