JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet236/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   232   233   234   235   236   237   238   239   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
Испорченные строковые значения
Категориальные данные часто поступают в виде строковых признаков. Например, 
при журналировании обращений к веб­странице может фиксироваться использу­
емый браузер с помощью значений вида 
FIREFOX

SAFARI
и 
CHROME
. Обычно такие 
значения перед вводом в модель глубокого обучения преобразуются в целочис­
ленные (в соответствии с заданным словарем или с помощью хеширования), по­
сле чего отображаются в многомерное векторное пространство (см. посвященный 
вложениям слов подраздел 9.2.3). При этом часто возникает проблема из­за того, 
что формат строковых значений из одного набора данных отличается от строковых 
значений другого. Например, в обучающих данных встречается значение 
FIREFOX

а при выполнении вывода модель получает значение 
FIREFOX\n
, включающее символ 
новой строки, или 
"FIREFOX"
, с кавычками. Это особенно коварная разновидность 
асимметрии, к которой желательно отнестись с особым вниманием.
Прочие нюансы данных, которые желательно учитывать
Помимо перечисленных в предыдущих разделах проблем, при вводе данных в си­
стему машинного обучения следует обратить внимание еще на несколько нюансов.
z
z
Слишком несбалансированные данные
— желательно избавляться от признаков, 
принимающих одно и то же значение почти для всех примеров данных в на­
боре. Подобная разновидность сигнала может легко привести к переобучению, 
а методы глубокого обучения плохо подходят для работы с очень разреженными 
данными.
z
z
Различение числовых/категориальных данных
— в некоторых наборах данных 
для элементов перечислимых множеств используются целые числа, что может 
привести к проблемам, если на самом деле эти элементы не обладают соответ­
ствующей упорядоченностью. Например, при наличии перечислимого множества 
музыкальных жанров (
ROCK

CLASSICAL
и т. д.) и ассоциативного массива соот­
ветствий этих жанров целым числам важно обращаться с этими числами при 
передаче в модель как со значениями перечислимого типа, то есть кодировать их 
с помощью унитарного представления или вложения (см. главу 9). В противном 
случае они будут интерпретироваться как значения с плавающей точкой, что 
предполагает не существующие на самом деле зависимости между термами в со­
ответствии с численным расстоянием между их представлениями.
z
z
Отличия масштабов
— хотя мы уже упоминали эту разновидность, не помешает 
рассказать о ней снова, в подразделе, посвященном проблемам с данными. Осте­
регайтесь числовых признаков с различными масштабами величин. Их наличие 
может привести к неустойчивости при обучении. В общем случае лучше перед 
обучением проводить нормализацию по z­оценке (нормализовать среднее значе­
ние и среднеквадратичное отклонение) данных. Главное, не забудьте выполнять 
такую же обработку данных при выполнении вывода, как и перед обучением. 
См. пример классификации ирисов из репозитория tensor­flow/tfjs­examples, 
обсуждавшийся в главе 3.


Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   232   233   234   235   236   237   238   239   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish