Методические указания по изучению дисциплины "Мировые информационные ресурсы" для студентов специальностей «Прикладная информатика (в экономике)»


M – число терминов в запросе. q



Download 399,08 Kb.
Pdf ko'rish
bet9/26
Sana26.02.2022
Hajmi399,08 Kb.
#467167
TuriМетодические указания
1   ...   5   6   7   8   9   10   11   12   ...   26
Bog'liq
tstu-tver04

M
– число терминов в запросе.
q
– запрос, состоящий из 
M
терминов (вектор запроса).
j
Q
– 
j
-й термин запроса, 
M
j
,
1
=
.
N
– число документов в информационном массиве.
i
P
– 
i
-й документ (поисковый образ 
i
-го документа), 
N
i
,
1
=
.
q
i
R
,
– релевантность (мера близости) 
i
P
по отношению к запросу 
q
.
j
i
C
,
– величина, характеризующая наличие 
j
Q
в 
i
P
, определяемая по фор-
муле






=
i
j
i
j
j
i
P
Q
P
Q
C
,
1
,
0
,
.
(1.1)
Для повышения качества поиска в выражении (1.1) вместо единицы можно так-
же использовать вес термина в документе 
j
i
W
,
.
k
i
IL
,
– величина, характеризующая наличие гиперссылки из 
k
P
в 
i
P
(входя-
щей гиперссылки
1
). 
0
,
=
k
i
IL
, если ссылки нет, 
1
,
=
k
i
IL
, если она есть. 
1
IL – англ. Incoming Hyperlink – входящая гиперссылка.
7


k
i
OL
,
– величина, характеризующая наличие гиперссылки из 
i
P
в 
k
P
(исхо-
дящей гиперссылки). 
0
,
=
k
i
OL
, если ссылки нет, 
1
,
=
k
i
OL
, если она есть. 
1.2.1. Алгоритм расширенного булевого поиска
Алгоритм расширенного булевого поиска основан на булевой модели, причем 
расширением является возможность ранжировать найденные документы по числу 
терминов запроса, которые в них встречаются. Такую модель поиска можно рассмат-
ривать как упрощенную модель поиска в нечетких множествах [] в противополож-
ность строгим множествам булевого поиска.
Релевантность документа 
i
P
по отношению к запросу 
q
рассчитывается как

=
=
M
j
j
i
q
i
C
R
1
,
,
.
(1.2)
Алгоритм расширенного булевого поиска использует модель (1.2) не только для 
данного документа, но и для соседних с ним, учитывая частоту появления в них слов 
запроса. Такое становится возможным в среде гипертекстовых документов. Предпо-
лагается, что если два документа связаны гиперссылкой, то между ними должна су-
ществовать и некоторая семантическая (смысловая) связь.
Практически это выглядит следующим образом. Если документ 
i
P
не содержит 
термина запроса
j
Q
, но связан с другими документом
k
P
, в который этот термин 
входит, то полагают, что документ
i
P
содержит термин
j
Q
. Однако при этом во 
время ранжирования документу 
i
P
приписывается меньший вес, чем если бы он на 
самом деле содержал термин 
j
Q
. Алгоритм определения релевантности документа 
i
P
и запроса 
q
принимает вид

=
=
M
j
j
i
q
i
I
R
1
,
,
,
где 
j
i
I
,
определяется следующим образом:






>
+
=
=
=
.
,
,
,
,
,
2
,
,
1
,
0
,
0
)
(
1
,
1
случаях
других
всех
во
k
i
k
i
и
j
k
что
,
такое
существует
если
j
i
если
j
i
OL
IL
С
k
c
С
c
I
8


Здесь 
1
c
и 
2
c
– положительные константы, причем 
2
1
c
c
>
.
1.2.2. Алгоритм наибольшего цитирования
Этот алгоритм также использует информацию о гиперссылках между докумен-
тами. Мера релевантности каждой страницы 
i
P
определяется суммой числа терми-
нов запроса, содержащихся на других страницах, которые имеют ссылку на данную:










=

=










=
N
i
k
k
M
j
j
k
k
i
j
i
q
i
C
IL
C
R
,
1
1
,
,
,
,
.
Цель данного алгоритма – приписать большие веса тем документам в множе-
стве найденных, которые цитируются (на которые ссылаются другие документы) 
чаще всего. Аналогичный подход применяется также в ряде других алгоритмов, в 
частности, в алгоритме PageRank, который используется в информационно-поиско-
вой системе Интернет Google [].
1.2.3. Векторный алгоритм поиска
Векторный алгоритм поиска, называемый
IDF
TF
×
-алгоритмом, является 
одним из самых распространенных. Он основан на векторной модели информаци-
онного массива, в которой для определения меры близости документов и запросов 
используется значение косинуса угла между их векторами в многомерном про-
странстве информационного массива [, ].
Запросы и документы в векторной модели представляют множествами наборов 
взвешенных терминов. Вектор запроса 
q
в таком случае будет выглядеть так:
)
,
,
,
,
,
(
2
1
M
j
W
W
W
W
q


=
,
где 
j
W
– вес 
j
-ого термина в запросе (вес термина 
j
Q
в запросе 
q
).
Вектор документа 
i
P
можно представить как
)
,
,
,
,
,
(
,
,
,
2
,
1
i
M
i
j
i
i
i
W
W
W
W
P


=
,
где 
i
j
W
,
– вес термина 
j
Q
в документе 
i
P
.
Функция совпадения векторов запроса и документа имеет вид:



=
=






=






=






M
j
i
j
M
j
j
M
j
i
j
j
q
i
W
W
W
W
R
1
2
,
1
2
1
,
,
.
(1.3)
9


Числитель дроби (1.3) определяет скалярное произведение векторов документа 
и запроса, знаменатель – произведение их длин, а релевантность
q
i
R
,
– косинус 
угла между этими векторами в Евклидовом пространстве. Весовые коэффициенты 
терминов запроса будут постоянными от документа к документу. Поскольку для 
оценки релевантности обычно важно знать изменение меры подобия документов, а 
не ее абсолютное значение, а также для ускорения процесса вычислений, характе-
ристики запроса в выражении (1.3) можно не учитывать:


=
=






=
M
j
i
j
M
j
i
j
q
i
W
W
R
1
2
,
1
,
,
.
(1.4)
Вес терминов 
i
j
W
,
в выражении (1.4) обычно вычисляется по формулам, при-
веденным в части 1 методических указаний. В частности, окончательное выражение 
для релевантности 
q
и 
i
P
, описывающее 
IDF
TF
×
-алгоритм, может иметь вид

+

+
=
=
















=










M
j
j
i
j
i
M
j
j
i
j
i
q
i
IDF
TF
TF
IDF
TF
TF
R
1
2
2
max
,
,
1
max
,
,
,
)
(
)
(
)
(
5
.
0
5
.
0
)
(
)
(
)
(
5
.
0
5
.
0
,
(1.5)
где
j
i
TF
,
)
(
– частота термина 
j
Q
в документе 
i
P
;
max
,
)
(
i
TF
– частота максимально часто встречающегося термина в 
i
P
;
j
IDF
)
(
– обратная документная частота, вычисляемая по формуле
















=

=
N
i
j
i
j
C
N
IDF
1
,
log
)
(
.
Вычисление длины вектора документа (знаменатель выражения (1.5)) занимает 
очень много времени. Поэтому часто применяют упрощенный 
IDF
TF
×
-алгоритм:
10



+
=
=











Download 399,08 Kb.

Do'stlaringiz bilan baham:
1   ...   5   6   7   8   9   10   11   12   ...   26




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish