Этапы работы поискового робота



Служба World Wide Web (WWW)

Это самая популярная служба современного Интернета. Именно её нередко отождествляют с Интернетом в целом, хотя на самом деле это лишь одна из его многочисленных служб.

Определение WWW

Основатель сети Тим Бернес-Ли дал такое определение.

WWW — это сеть серверов, распределённая гетерогенная информационная мультимедиа-система коллективного пользования.

Из определения понятно, какую огромную роль в современном обществе имеет компьютерная информационная среда. Среда WWW не имеет централизованной структуры. Все, кто желает разместить в Интернете свои материалы, не противоречащие законодательству, могут это сделать. Отдельный документ World Wide Web называют Web-страницей. Обычно это комбинированный документ, который может содержать текст, графические иллюстрации, мультимедийные и другие объекты. Отличительной особенностью среды WWW является наличие средств перехода от одного документа к другому, тематически с ним связанному, без явного указания адреса. Связь между документами осуществляется при помощи гипертекстовых ссылок. Огромное число гипертекстовых электронных документов, хранящихся на серверах WWW, образует своеобразное гиперпространство документов, между которыми возможно перемещение.

Связь между сотнями миллионов документов, хранящихся на физических серверах Интернета, не могла бы существовать, если бы каждый документ в этом гиперпространстве не обладал своим уникальным адресом. Файл одного локального компьютера обладает уникальным полным именем, в которое входит собственное имя файла с расширением и путь доступа к файлу, начиная от имени устройства, на котором он хранится. Определяя местоположение файла в Глобальной сети, надо расширить представление об уникальном имени файла. Адрес любого файла во всемирном масштабе определяется унифицированным указателем ресурса — URL. URL-адрес представляет собой стандартизованную строку символов, указывающую местонахождение ресурса, документа или его части в Интернете, и состоит из трех частей.

  • имя протокола для доступа к службе Интернет;
  • имя сервера, на котором хранится ресурс и работает сервер-программа службы Интернет;
  • полное имя файла, который хранится на сервере.

Для функционирования службы Интернет, необходимо серверное и клиентское программное обеспечение. Работу службы World Wide Web обеспечивают серверные программные средства — Web-серверы, и клиентские программы — Web-браузеры.

Информационно-поисковые системы

Информационные службы определяют технологию хранения, передачи информационных объектов и, соответственно, алгоритмы поиска.

Web-документы хранятся на Web-серверах, файлы и файловые архивы — на файловых серверах. В связи с этим, набор информационных объектов, доступных с помощью каждого сервиса, может рассматриваться как отдельное информационно-поисковое пространство.

Теперь, зная, что мы можем искать и где, обратимся к вопросу – как организовать такой поиск.

В настоящее время для поиска конкретной информации существуют так называемые информационно-поисковые системы или, как принято выражаться на языке Интернет, поисковые службы. Поисковая система представляет собой специализированный Web-узел. Принцип работы таких систем прост: пользователь должен объяснить системе, что ему необходимо получить, а задача поисковой службы состоит в том, чтобы найти и выдать список гиперссылок на страницы, на которых упоминаются соответствующие сведения.

Классификация поисковых служб:

  • по способу организации и пополнения базы данных о документах в сети на поисковые каталоги и поисковые машины;
  • по глубине охвата ресурса на глобальные и локальные.

Особенности поисковых каталогов

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Принципы работы с каталогами достаточно просты. Как правило, главная страница Web-сайта каталога содержит в себе список категорий, или рубрик, каждая из которых представлена гиперссылкой.

Работа с поисковыми каталогами интуитивно проста. В них поиск информации практически всегда завершается более или менее плодотворно. Однако за этой простотой скрывается высочайшая сложность создания и ведения каталога.

Важнейшей характеристикой каталогов является объем базы данных, т.е. количество представленных документов. Для глобальных каталогов данная величина составляет примерно 1-2 миллиона документов, что составляет порядка 0,1-0,2% от общего пространства WWW, и степень охвата общего объема ресурсов WWW непрерывно уменьшается из-за лавинообразного увеличения информационных ресурсов в Глобальной сети. Поэтому использование каталогов не может дать результатов, обладающих высокой полнотой.

По сравнению с поисковыми машинами скорость увеличения баз данных каталогов достаточно мала. Дело в том, что поисковые каталоги создаются вручную, коллективом высококвалифицированных редакторов, которых называют также модераторами. Однако это может рассматриваться и как преимущество поисковых систем, поскольку ручной отбор позволяет повысить точность поиска и распределение материалов по соответствующим рубрикам.

Другой характеристикой каталогов является количество категорий или рубрик в каталоге. Естественно, чем выше это значение, тем большей точностью характеризуются результаты поиска. Для глобальных каталогов это значение в настоящее время составляет несколько десятков тысяч.

Особенности поисковых машин

В поисковых машинах каталоги Web-ресурсов создаются автоматически специальными программами, называемыми поисковыми роботами или поисковыми указателями (а также “червяками”, “пауками”, “траулерами”, “автоматами”, “агентами” и т.п.). Из процесса наполнения базы данных поисковой системы исключается человеческий фактор. При этом падает качество ссылок, предоставляемых системой по результатам поиска, но одновременно увеличивается их количество.

Программа Поисковый робот осуществляет просмотр Сети с целью выявления новых документов для включения их в базу данных поисковой машины — индекс. Процесс занесения информации о документе в индекс называется индексированием.

Этапы работы поискового робота


Дата добавления: 2020-11-29; просмотров: 123; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!