Как поисковые системы находят сайты через интернет - PullRequest
0 голосов
/ 25 сентября 2011

Я собираюсь написать веб-синтаксический анализатор (приложение, которое сканирует в Интернете с одного сайта на другой).
Как найти список доступных доменов / IP-адресов в Интернете (максимально полный)?
Как поисковые системы находят сайты (что они используют в качестве надежного списка зарегистрированных IP / доменов для отправной точки)?

Спасибо

1 Ответ

1 голос
/ 25 сентября 2011

Как указывает комментарий Майкла П., зависит от вашей цели.

Моя компания недавно хотела ответить на вопрос о сторонних инструментах, используемых на ведущих веб-сайтах. Я использовал Alexa в качестве отправной точки для поиска самых популярных (по трафику) веб-сайтов и создал анализатор, который может ответить на конкретный вопрос, заданный моей компанией. Если вы начинаете с такого списка, вы можете запрограммировать свой веб-сканер, чтобы переходить по ссылкам, с которыми он встречается, для расширения ваших знаний о сайтах в Интернете.

Надеюсь, это поможет вам подумать о проблеме.

...