205 Поисковая система в Internet: структура баз, технология пополнения и поиска.
Поисковые системы состоят из трех частей:
- робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;
- индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой с-ме;
- программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.
В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет инф-ю в каталоге вручную, используя рубрики.
Исследуемое пространство состоит из следующих компонентов:
- центральное ядро — тесно связанные между собой web-страницы, с каждой из которых можно попасть на любую другую (27 %);
- отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22 %);
- оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22 %);
- полностью изолированные от центрального ядра страницы (22 %); web-страницы, не пересекающиеся с остальными ресурсами Интернета (7 %).
Наилучшим вариантом работы с ИР Интернета является вариант, когда пользователь знает адрес сайта и получает возможность ознакомиться с его содержимым.
Если пользователь исследует новую проблему в бизнесе, ищет инф-ю среди ресурсов, которые он еще не освоил, одним из основных методов является использование поисковых машин и каталогов.
В этом случае может быть предложена следующая технология подготовки и проведения поиска.
Определение общей направленности запроса, его содержания.
Определение географических регионов поиска. В первую очередь для практических задач ценность информационного ресурса может зависеть от его географического расположения.
Отбор поисковых машин. Осуществляется отбор и устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска в каждой из машин. Качество выполнения этого этапа будет зависеть от опыта работы пользователя с поисковыми машинами.
Составление запросов к поисковым машинам. Для эффективного использования поисковых машин запрос составляется так, чтобы область поиска была сужена в максимальной степени. Необходимо смоделировать, представить себе, как может выглядеть искомая инф-я. По ключевым словам следует составить тезаурус.
Выполнение запроса и его уточнение. Составленный запрос передается на обработку. Анализ полученных результатов позволяет корректировать запрос, чаще всего с целью сужения области поиска.
Поиск деловой инф-и в Интернете — это творческий процесс, требующий глубоких знаний в области информатики, лингвистики, принципов построения информационных и поисковых ресурсов Интернета
Do'stlaringiz bilan baham: |