как работает паук в поисковике? - PullRequest
1 голос
/ 05 мая 2010

Как работает гусеничный или паук в поисковой системе

Ответы [ 3 ]

3 голосов
/ 19 мая 2010

В частности, вам нужны хотя бы некоторые из следующих компонентов:

  • Конфигурация: Требуется указать сканеру, как, когда и где подключаться к документам; и как подключиться к базовой базе данных / системе индексации.
  • Connector: Это создаст соединения с веб-страницей, общим диском или чем-то еще, на самом деле.
  • Память: Уже посещенные страницы должны быть известны сканеру. Обычно это хранится в индексе, но это зависит от реализации и потребностей. Содержимое также хэшируется для устранения дублирования и проверки обновлений.
  • Анализатор / преобразователь: Необходим для понимания содержимого документа и извлечения метаданных. Преобразует извлеченные данные в формат, используемый базовой системой баз данных.
  • Индексатор: Передаст данные и метаданные в базу данных / систему индексации.
  • Планировщик: Планирует прогоны сканера. Возможно, придется обрабатывать большое количество работающих сканеров одновременно и учитывать то, что в настоящее время делается.
  • Алгоритм подключения: Когда анализатор находит ссылки на другие документы, необходимо проанализировать, когда, как и где должны быть установлены следующие подключения. Кроме того, некоторые алгоритмы индексации учитывают графики подключения страниц, поэтому может потребоваться сохранить и отсортировать информацию, связанную с этим.
  • Управление политиками: На некоторых сайтах сканеры должны соблюдать определенные политики (например, robots.txt).
  • Безопасность / Управление пользователями: Сканер, возможно, должен иметь возможность войти в какую-либо систему для доступа к данным.
  • Компиляция / выполнение контента: Сканеру может потребоваться выполнить определенные действия, чтобы иметь доступ к тому, что внутри, например апплеты / плагины.

Программы-сканеры должны быть эффективными при совместной работе с различными начальными точками, скоростью, использованием памяти и использованием большого количества потоков / процессов. Ввод / вывод является ключевым.

3 голосов
/ 09 декабря 2012

Всемирная паутина - это в основном связанный ориентированный граф веб-документов, изображений, мультимедийных файлов и т. Д. Каждый узел графа является компонентом веб-страницы, например, веб-страница состоит из изображения, текста, видео. и т. д., все они связаны между собой. Сканер просматривает график, используя поиск в ширину, используя ссылки на веб-страницах.

  1. Сканер изначально запускается с одной (или более) начальных точек.
  2. Сканирует веб-страницу и просматривает ссылки на этой странице.
  3. Этот процесс продолжается до тех пор, пока не будет исследован весь график (некоторые предопределенные ограничения могут использоваться для ограничения глубины поиска).
0 голосов
/ 05 мая 2010

С Как работает материал

Как любой паук начинает свое путешествие по сети? Обычные отправные точки - это списки сильно используемых серверов и очень популярных страниц. Паук начинает с популярного сайта, индексируя слова на своих страницах и следуя каждой ссылке, найденной на сайте. Таким образом, система паутинга быстро начинает путешествовать, распространяясь по наиболее широко используемым частям сети.

...