Программа анализа тональности текстов на основе методов


Метод k ближайших соседей



Download 172,46 Kb.
bet9/14
Sana05.02.2023
Hajmi172,46 Kb.
#908004
TuriРеферат
1   ...   6   7   8   9   10   11   12   13   14
Bog'liq
диплом ПЗ Вишневская 472ПИ

Метод k ближайших соседей


Метод k ближайших соседей - k Nearest Neighbors или k NN.
Метод ближайших соседей – еще один алгоритм классификации текстов. Для его реализации нужна обучающая выборка размеченных рецензий. Для определения класса рецензии из тестовой выборки, нужно определить расстояние от вектора этой рецензии до векторов из обучающей выборки. Определить k объектов обучающей выборки, расстояние до которых минимально (k задается экспертом или выбирается согласно оценкам эффективности). Класс входного вектора – это класс, которому принадлежат больше половины из соседних k векторов. В качестве функции расстояния было выбрано Евклидово расстояние:

    1. Создание обучающей выборки


Для создания решений, основанных на методах машинного обучения, требуется размеченная обучающая выборка. От подбора выборки напрямую зависит качество классифицирующего алгоритма. Для максимизации значений оценок эффективности, обучающая выборка составляется из текстов той же предметой области, для которой будет применяться классификатор.
В качестве обучающей и тестовой выборки, были отобраны 800 положительных и 800 отрицательных рецензий на фильмы с сайта kinopoisk.ru. В качестве тональности рецензий брался выбранный автором тип рецензии (положительный или отрицательный).


    1. Тестирование работы алгоритма


Для тестирования точности алгоритмов классификации, был использован метод перекрестной проверки (скользящий контроль, кросс-валидация, cross-validation). В рамках этой процедуры фиксируется некоторое множество разбиений исходной выборки на две подгруппы: обучающую и контрольную. Для каждого разбиения выполняется настройка алгоритма по обучающей подгруппе, затем оценивается его эффективность на векторах контрольной подгруппы. Оценкой перекрестной проверки называется средние по всем разбиениям величины точности и полноты на контрольных подгруппах.
Если объекты выборки независимы, то средние значения оценок эффективности перекрестной проверки дадут несмещенные оценки эффективности.

Download 172,46 Kb.

Do'stlaringiz bilan baham:
1   ...   6   7   8   9   10   11   12   13   14




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish