D., M. Rakhimov f a n : a X b o r o t L a r n I i z L a s h V a a j r a t I b o L i s h k a f e d r a



Download 1,01 Mb.
Pdf ko'rish
bet5/5
Sana06.02.2022
Hajmi1,01 Mb.
#432431
1   2   3   4   5
Bog'liq
2-Mavzu (Rakhimov M.F) 2021

koʻproq mos keladigan 
hujjatlarni 
tegishliroq deb hisoblaniladi. Yoki so'rovdagi ko'proq "
muhim
" bo‘lgan so'zlar asosidagi hujjatlar 
qidiriladi. 
Term
– bu hujjatlar va so‘rovlar tarkibidagi har bir so‘zni anglatuvchi atama. 
Muvofiqlikni 2ta matematik funksiya shaklida ifodalash mumkin: 

score(q, d) – hujjatning so‘rovga muvofiqlik darajasi; 

score(t, d) – hujjatning bir termga muvofiqlik darajasi. 
Hujjatning so‘rovga muvofiqlik darajasi (
score(q,d)
) termlarning muvofiqlik darajalari summasi 
asosida ifodalash mumkin: 
10 


1-qadam. (
Additive function

Additivlik funksiya keyingi qadamlardagi hisob-kitoblarni soddalashtiradi, ammo haqiqiy 
manodan uzoqlashtirishga majbur qiladi – go'yo matndagi barcha so‘zlar bir-biridan mustaqil 
ravishda uchraganidek. 
Eng keng qo‘llaniladigan additivlik funksiyasiga 
TF-IDF
va 
BM25
misol qilish mumkin. Ular 
ko'pchilik qidiruv tizimlari tomonidan asosiy muvofiqlik ko'rsatkichlari sifatida ishlatiladi. 
11 


TF-IDF 
TF-IDF (
TF — term frequency, IDF — inverse document frequency
) — hujjatlar toʻplami yoki 
korpusining bir qismi boʻlgan hujjat kontekstida soʻzning ahamiyatini baholash uchun 
foydalaniladigan statistik oʻlchov. So'zning og'irligi ushbu so'zning hujjatda qo'llanish 
chastotasiga to‘gri proporsional va ​​to'plamning barcha hujjatlarida so'zning qo'llanish 
chastotasiga teskari proportsionaldir. 
12 


BM25
Okapi BM25 
– bu qidiruv tizimlari tomonidan hujjatlarni ma'lum bir qidiruv so'roviga 
aloqadorligiga ko'ra tartiblash uchun ishlatiladigan reyting funktsiyasi. 
13 
from rank_bm25 import BM25Okapi 
corpus = [ 
"Hello there good man!", 
"It is quite windy in London", 
"How is the weather today?" 

tokenized_corpus = [doc.split(" ") for doc in corpus] 
bm25 = BM25Okapi(tokenized_corpus) 
query = "London weather" 
tokenized_query = query.split(" ") 
doc_scores = bm25.get_scores(tokenized_query) 
doc_scores 
bm25.get_top_n(tokenized_query, corpus, n=1) 
array([0. , 0.46864736, 0.51082562]) 
['How is the weather today?'] 
Natija
:


14 

Download 1,01 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish