Принципы работы поисковых указателей

Все поисковые системы Интернета основаны на гиперссылках. Их можно рассматривать как обширные коллекции гиперссылок, но принцип доступа к гиперссылкам в различных поисковых системах разный. Если коллекция статическая (одна на всех пользователей), то система образует один большой предметный каталог, а если коллекция динамическая (запрос пользователя анализируется, и в ответ на разные запросы он получает разные коллекции), то такие поисковые системы называют поисковыми указателями.

В России

List.Ru (www.list.ru)
"Созвездие Интернет" (www.stars.ru )
Russia on the Net (www.ru)

Обычно поисковые каталоги формируются вручную. Отсюда их достоинства и недостатки. К достоинствам следует отнести предварительный просмотр и отбор сайтов человеком редактором.

Развивается идея интеграции поискового указателя с предметным каталогом, например портал "Яндекс" ( www.yandex.ru)
"Яндекс" можно отнести к поисковым системам типа автоматический индекс.
Автоматический индекс навещает все известные ему сайты,переписывает тексты всех доступных страничек и хранит эти тексты вместе с их адресами в своей базе данных.
Как любой автоматический индекс, "Яндекс" состоит из двух частей: база данных и программа поиска нужного слова.

Главная разница между катаогом и поисковой системой:
Каталог (например List.Ru) содержит только адреса и краткие описания сайтов, а роисковые системы (например "Яндекс") хранит содержимое всех известных ему сайтов.

Принципы работы поисковых указателей

Четыре этапа

Сканирование Web-пространства. Поисковая система с помощью специальных программ просматривает доступное пространство Web и копирует к себе все встреченные страницы.
Индексация ресурсов.Эти страницы обрабатываются специальными программными средствами и из них составляется специальная база данных, именуемая указателем.
Поиск по запросу. Система анализирует ключевые слова, введенные пользователем в запросе, и, согласно указателю, отбирает ссылки на те ресурсы, которые запросу соответствуют - их может получиться очень много.
Формирование результирующей страницы. Система формирует динамическую Web-страницу

Ранжирование результатов поиска

Ранжирование по каталогу.
Ранжирование по рейтинговой системе.
Ранжирование по цитируемости.

Проверка указателя

Проверить объем того или иного указателя нетрудно. Во-первых, большинство указателей сами сообщают о себе такие данные, особенно если им есть чем гордиться. Если же таких данных нет, можно воспользоваться классическим запросом to be or not to be.
Согласно такому запросу система должна выдать страницы, содержащие слова to be ИЛИ НЕ содержащие слова to be, то есть вообще все, что у нее есть. Правда этот прием не везде срабатывает.

Относительную оценку того или иного указателя можно получить, проведя несколько поисков по какому-нибудь широко распространенному слову, например: компьютер, человек, машина, - но к полученному результату надо отнестись осторожно.

Гораздо интереснее проверить актуальность данных, собранных поисковой системой.
Возьмите, к примеру, какой-нибудь факт, получивший достаточно широкое освещение в Сети в последнее время, и посмотрите, насколько глубоко осведомлена поисковая система о предмете. Это может быть какое-либо событие, например атака террористов, объект, например всемирный торговый центр, или, скажем, продукт, например Windows XP.

Смутное время

Одним из направлений развития пространства Web в 1997-1998 годах стала централизация поиска в сочетании с децентрализацией обслуживания запросов.
Смысл идеи состоит в следующем. Создается мощная система, богато оснащенная вычислительной техникой и занимающаяся только сбором информации из WWW, но не обслуживанием конечных пользователей.
В частности такой системой стала Inktomi (www.inktomi.com) . Работой с пользователями занимаются другие компании, которые принимают запросы на поиск и передают их Inktomi на обработку. У разных партнеров разная политика ранжирования, поэтому в результате поиска результаты не будут идентичными.

Централизация поиска вы этот период привела к быстрому развитию концепции порталов - небольших служб, предоставляющих множество справочных услуг, в том числе и поисковых.

В период 1998-1999 годах стали развиваться средства метапоиска (заказ на поиск принимает одна служба , которая потом размещает его на разных указателях, после чего собирает от них результаты, ранжирует и рафинирует их по своему усмотрению и передает пользователю).
Именно по этому принципу работают метапоисковые системы. Однако любая метапоисковая система использует только малую часть адресов, выданных отдельным каталогом или индексом. На большее нет времени - ведь необходимо опросить несколько систем. В результате могут быть пропущены важные документы.
Кроме того для опроса нескольких поисковых систем требуется универсальный язык запросов, а это невозможно - каждый индекс обладает своим собственным. Как следствие - примитивный, грубый запрос - не всегда точный ответ.

Возврат в начало страницы Возврат на главную страницу сайта

Хостинг от uCoz

Принципы работы поисковых указателей

Популярные предметные каталоги

В России

Принципы работы поисковых указателей

Четыре этапа

Ранжирование результатов поиска

Проверка указателя

Смутное время