Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet467/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   463   464   465   466   467   468   469   470   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

прив-
ратником
(gater), для выбора одной из нескольких 
экспертных сетей
, вычисляющих 
выход по текущему входу. Первый вариант этой идеи получил название «
коллектив 
экспертов
» (mixture of experts) (Nowlan, 1990; Jacobs et al., 1991) – привратник вы-
водит набор вероятностей или весов (полученных с помощью нелинейности типа 
softmax), по одному на каждого эксперта, а конечный выход получается взвешивани-
ем выходов экспертов. В этом случае применение привратника не снижает вычисли-
тельную стоимость, но если бы для каждого примера привратник предлагал только 
одного эксперта, то мы получили бы 
строгий
(hard) 
коллектив экспертов
(Collobert 
et al., 2001, 2002), способный значительно ускорить обучение и вывод. Такая страте-
гия хорошо работает, когда число решений привратника мало, а не растет комбина-
торно. Но если мы хотим выбирать различные подмножества блоков или параметров, 
то воспользоваться «мягким переключателем» не получится, потому что требуется 


Крупномасштабное глубокое обучение 

379
перечислить все конфигурации привратника (и вычислить для них выходы). Что-
бы справиться с этой проблемой, было предложено несколько подходов к обучению 
комбинаторных привратников. В работе Bengio et al. (2013b) описаны эксперименты 
с несколькими оценками градиента по вероятностям привратника, а в работах Bacon 
et al. (2015) и Bengio et al. (2015a) использовалась техника обучения с подкреплени-
ем (градиент политики – policy gradient) для реализации разновидности условного 
прореживания, применяемого к группам скрытых блоков, с целью реально снизить 
вычислительную стоимость, не ухудшив качества аппроксимации.
Еще один вид динамической структуры – переключатель, когда скрытый блок мо-
жет получать входные данные от разных блоков в зависимости от контекста. Такую 
динамическую маршрутизацию можно интерпретировать как механизм внимания 
(Olshausen et al., 1993). Пока что эффективность жесткого переключателя в крупно-
масштабных приложениях не доказана. Вместо этого в современных системах приме-
няется взвешенное среднее многих возможных входов, что не позволяет реализовать 
все потенциальные вычислительные преимущества динамической структуры. Совре-
менные механизмы внимания описаны в разделе 12.4.5.1.
Одно из главных препятствий на пути использования систем с динамической 
структурой – снижение степени параллелизма из-за того, что выполнение идет по 
разным ветвям для разных входов. Это означает, что лишь немногие операции сети 
можно описать как умножение матриц или пакетную свертку на мини-пакете приме-
ров. Можно написать более специализированные подпрограммы, которые сворачи-
вают каждый пример с разными ядрами или умножают каждую строку матриц плана 
на разное подмножество столбцов матрицы весов. К сожалению, такие подпрограм-
мы трудно реализовать эффективно. Реализации для CPU будут медленными из-за 
отсутствия когерентности кэшей, а реализации для GPU – тоже медленными из-за 
отсутствия объединенных транзакций доступа к памяти и необходимости сериали-
зовывать канаты, когда входящие в них потоки выполняют разные ветви програм-
мы. Иногда эти проблемы можно смягчить, разбив примеры на группы, для которых 
выполнение идет по одной ветви, а затем обработав каждую группу одновременно. 
Такая стратегия может оказаться приемлемой для минимизации времени обработки 
фиксированного числа примеров в офлайновой конфигурации. Но в режиме реаль-
ного времени, когда примеры должны обрабатываться непрерывно, разбиение задачи 
на части может привести к проблемам с балансированием нагрузки. Например, если 
назначить одну машину для обработки первой ступени каскада, а другую – для об-
работки последней, то первая машина может оказаться перегруженной, а вторая – не-
догруженной. Аналогичные проблемы возникают, если разным машинам поручить 
реализацию различных узлов нейронного решающего дерева.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   463   464   465   466   467   468   469   470   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish