JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet299/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   295   296   297   298   299   300   301   302   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
слова встречаются в предложении и в каком порядке
1
. Однако для длинного текста 
размер такого вектора окажется неприемлемо большим. Например, в английском 
языке предложение в среднем содержит 18 слов. Если словарь состоит из 10 000 слов, 
представление одного­единственного предложения потребует 180 000 чисел — на­
много большего объема памяти, чем занимает само предложение. И это не говоря 
о том, что в некоторых задачах обработки текста приходится иметь дело с абзацами 
или целыми статьями, состоящими из намного большего числа слов, в результате 
чего размер представления и объем вычислений вырастет до совершенно непри­
личных размеров.
Один из способов решения этой проблемы — включить все слова в один вектор, 
элементы которого отражают наличие/отсутствие соответствующего слова в тексте 
(см. блок В на рис. 9.6). В этом представлении значение 1 может быть у нескольких 
элементов вектора. Именно поэтому иногда его называют 
федеративным кодирова-
нием
(multi­hot encoding). Федеративное кодирование отличается фиксированной 
длиной, равной размеру словаря, вне зависимости от длины текста, а значит, решает 
проблему роста размера, правда, за счет потери информации о порядке слов: по фе­
деративному вектору невозможно определить, какие слова шли за какими в тексте. 
Для некоторых задач это неважно, но для некоторых других такой вариант непри­
емлем. Существуют более изощренные представления, которые решают проблему 
роста размера, сохраняя информацию о порядке. Мы обсудим их далее в этой главе. 
Но сначала взглянем на конкретную задачу машинного обучения, связанную с обра­
боткой текста, которую можно решить с удовлетворительной точностью с помощью 
федеративного подхода.
9.2.2. Первая попытка анализа тональностей
В первом примере применения машинного обучения к тексту воспользуемся на­
бором данных интернет­базы кинофильмов (IMDb). Он представляет собой набор 
из примерно 25 000 текстовых обзоров фильмов с сайта 
imdb.com
, маркированных 
как позитивные или негативные. Задача машинного обучения состоит в бинарной 
классификации, то есть в определении того, является конкретный обзор фильма по­
зитивным или негативным. Набор данных симметричен (50 % позитивных обзоров 
и 50 % негативных). Как и следует ожидать от онлайн­обзоров, длины примеров 
данных сильно различаются. Некоторые из них состоят всего из десяти слов, а дру­
гие могут достигать 2000 слов. Вот пример типичного обзора, маркированного как 
негативный. Пунктуация в этом наборе данных опущена:
the mother in this movie is reckless with her children to the point of neglect i wish i wasn't 
so angry about her and her actions because i would have otherwise enjoyed the flick what 
a number she was take my advise and fast forward through everything you see her do until 
the end also is anyone else getting sick of watching movies that are filmed so dark anymore 
one can hardly see what is being filmed as an audience we are impossibly involved with the 
actions on the screen so then why the hell can't we have night vision

В предположении, что в нем нет OOV­слов.


Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   295   296   297   298   299   300   301   302   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish