Крис Фрит Мозг и душа: как нервная деятельность формирует наш внутренний мир



Download 4,41 Mb.
bet44/103
Sana29.04.2023
Hajmi4,41 Mb.
#933264
1   ...   40   41   42   43   44   45   46   47   ...   103
Bog'liq
Xotira

Рис. 4.4. Активность допаминовых нейронов отражает ошибку в предсказании награды.
Обезьян обучали ассоциировать световую вспышку (сигнал) с фруктовым соком, вспрыскиваемым в рот через секунду (награда), измеряя при этом активность допаминовых нейронов.
(a) Сигнала не поступало, и обезьяна не знала, когда получит награду. Непредвиденная награда вызывает повышение активности.
(b) Обезьяна знала, когда получит награду. Получение награды не вызывает изменений активности. Но обезьяна не знала, когда поступит сигнал. Непредвиденный сигнал, предвещающий награду, вызывает повышение активности.
(c) Обезьяна ожидала получения награды, но не получила ее. Отсутствие предвиденной награды вызывает снижение активности. 
Как мы учимся на своих ошибках

Активность этих клеток не служит сигналом награды. Не служит она и сигналом того, что награда скоро будет получена. Активность этих клеток сообщает нам об ошибке в нашем предсказании награды. Если сок поступает тогда, когда мы ожидаем его поступления, значит, никакой ошибки в нашем предсказании нет, и допаминовые клетки не посылают сигнала. Если сок поступает неожиданно, значит, награда превзошла наши ожидания, и эти клетки посылают положительный сигнал. Если же сок не поступает, когда мы его ожидаем, значит, награда не оправдала наших ожиданий, и допаминовые клетки посылают отрицательный сигнал. Эти сигналы, сообщающие нам об ошибках в наших собственных предсказаниях, позволяют нам изучать окружающий мир, не нуждаясь в учителе. Если наши предсказания о чем-то в окружающем мире ошибочны, это означает, что нам нужно что-то сделать, чтобы улучшить качество своих предсказаний.


Еще до того, как выяснилось, что активность допаминовых нервных клеток служит сигналом ошибки в наших предсказаниях, математики разработали алгоритмы, позволяющие машинам обучаться похожим способом.
Для понимания механизмов подобного ассоциативного обучения важна концепция "ценности". Безусловный раздражитель в экспериментах Павлова обладает внутренней ценностью – положительной в случае еды (награда) и отрицательной в случае электрического удара (наказание). Этот ассоциативный механизм работает благодаря тому, что всякий раз, когда мы получаем награду, что угодно, предшествовавшее этой награде, приобретает дополнительную ценность. Даже нечто случившееся задолго до награды становится хотя бы чуть-чуть более ценным. Некоторые из таких вещей никак не связаны с наградой и предшествовали ей по чистой случайности. Но тогда, вероятнее всего, когда что-то подобное произойдет в следующий раз, за ним не последует награды. Это вызовет поступление сигнала об ошибке. Ожидаемая награда не была получена, и ценность не связанного с ней события будет снижена. Но когда происходит нечто, позволяющее правильно предсказать получение награды, сигнал об ошибке не поступает, и такое событие приобретает с каждым разом все большую ценность. Тем самым наш мозг учится присваивать определенную ценность всем событиям, объектам и местам в окружающем нас мире. Многие из них при этом остаются для нас безразличными, но многие приобретают высокую или низкую ценность.
Мы испытываем ощущения, отражающие эту карту ценностей, заключенную в нашем мозгу, когда возвращаемся из долгой заграничной поездки: мы чувствуем прилив эмоций, нарастающий по мере того, как улицы, по которым мы движемся, становятся все более знакомыми.
Стремясь к тому, что обладает высокой ценностью, и избегая того, что обладает низкой ценностью, мы можем получать награды и избегать наказаний. Но этот механизм ассоциативного обучения говорит нам только о том, какие вещи обладают высокой ценностью. Он не говорит нам, как добиться этих ценных вещей. Кошки Торндайка, когда их впервые сажали в клетку-головоломку, знали, что рыба обладает высокой ценностью, но при этом не знали, что сделать, чтобы до нее добраться.
Механизм, позволяющий научиться, что делать, чтобы получать награды (или избегать наказаний), тоже существует. Его называют алгоритмом временных различий . Используя этот метод, машина может определить наилучшую последовательность действий, которые требуется совершить, чтобы получить что-либо ценное. Этот метод известен также как "модель актера и критика". Одна часть программы, "актер", решает, какое следующее действие предпринять. Другая часть, "критик", оценивает, насколько удачным было это действие. Критик сообщает актеру обо всех ошибках, допущенных в предсказаниях. Удачным действием считается такое, после которого наше положение сейчас оказывается лучше, чем было до того. Критик всякий раз сообщает о происходящих изменениях ценности (отсюда "временные различия"). Ценность положения повышается после действий, которые приближают нас к награде. Это позволяет нам искать пути, ведущие к получению награды. Самой высокой ценностью обладает место возле самой награды. По мере удаления от награды ценность уменьшается. Двигаясь в сторону мест с более высокой ценностью, мы рано или поздно доберемся до награды. При этом, разумеется, в окружающем мире нет никаких отметок, указывающих ценность того или иного места. Эти отметки существуют лишь во внутренней модели мира, имеющейся у нас в мозгу и построенной благодаря опыту и обучению.




Download 4,41 Mb.

Do'stlaringiz bilan baham:
1   ...   40   41   42   43   44   45   46   47   ...   103




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish