Поисковые системы
1. Поиск информации
Поиск информации — это процесс выявления в некотором множестве документов всех тех, которые удовлетворяют определенному условию поиска. Поиск информации в сети — тот же поиск, но документы расположены на удаленных, но связанных сетью системах.
2. Принцип работы поисковой системы
В общем виде принцип работы большинства поисковых систем выглядит так:
Специальные программы (их часто называют поисковыми роботами или пауками), являющиеся частью поисковой системы, скачивают различные веб страницы, ищут в них ссылки на другие страницы, по ссылкам скачивают эти страницы, ищут ссылки уже в них и так далее. Обнаруженные страницы анализируются и добавляются в базу данных всех найденных страниц, в соответствующие содержанию страницы категории. Когда поступает запрос от пользователя, поисковая система ищет в базе проиндексированных страниц те, которые удовлетворяют запросу пользователя и выдает их.
PageRank (HITS)
Этот алгоритм лежал в основе создания поисковой системы Google. Он используется для определения «важности» страницы в сети. Основная идея алгоритма такова: чем больше ссылок на какую-то страницу, тем она скорее всего важней. Страниц можно более или менее успешно разделить на концентраторы (hub) — не содержат авторитетной информации, но содержат множество ссылок на страницы с авторитетной информацией и страницы с авторитетной информацией. При поиске, каждой странице присваивается два значения: авторитетность этой страницы, т.е. ценность содержащейся на ней информации и ее «концентрированность», т.е. ценность ее ссылок на другие страницы. Большее значение авторитетности дается странице, если на нее ссылается страница с большим значением «концентрированности». А большее значение концентрированности дается странице, если она ссылается на большое количество страниц с высоким значением авторитетности.
4. Критерии и качество поиска
Характеристика запроса пользователя и поисковой выдачи.
Пертинентность — соответствие информационной потребности пользователя поисковой выдаче.
Релевантность — соответствие поискового запроса пользователя поисковой выдаче.
Коэффициенты эффективности поисковой системы:
Коэффициент полноты — доля выданных релевантных документов во всем массиве релевантных документов
Коэффициент точности — доля выданных релевантных документов во всем массиве документов
Также используются показатели быстродействия поисковой системы, пропускной способности, надежность работы и т.д.
5. Поисковые системы интернет
При зарождении интернета, задачи поиска страниц не стояло, так как их было мало и они все были известны. Не существовало какого-то единого центра, где должны были содержаться ссылки на все ресурсы в интернете. Когда интернет стал набирать популярность и количество страниц стало расти в тысячи раз, это проблема неожиданно обнаружилась. Ни в протоколах передачи страниц, ни в системах их хранения не было предусмотрено индексирования и поиска страниц. Пришлось разрабатывать поисковые системы, которые сами искали страницы, используя ссылки.
Do'stlaringiz bilan baham: |