Каким должен быть начальный список URL для сканера, чтобы он начал свою работу - PullRequest
2 голосов
/ 03 августа 2010

Мне нужен список URL-адресов, с которых мой сканер может эффективно начать сканирование, чтобы охватить максимальную часть веб-страниц.Есть ли у вас другие идеи по созданию начального индекса для другого хоста.Спасибо тебе

Ответы [ 3 ]

3 голосов
/ 03 августа 2010
  • http://www.dmoz.org - хорошее семя.
  • Как уже было сказано, чтобы ориентироваться, запрос поисковой системы дает хорошее Результаты.
1 голос
/ 03 августа 2010

IMO это на самом деле не имеет значения - поскольку эти URL-адреса ссылаются на различные части Интернета, вы можете быть вполне уверены, что ваш сканер будет сканировать большинство темных (то есть связанных) страниц в Интернете, рано или поздно(возможно, позже, учитывая размер Интернета).

Я бы предложил главную страницу какого-нибудь сайта, на которой есть много ссылок, ведущих в разные места в Интернете (подсказка), и перейдем оттуда..

Проблема, с которой вы столкнетесь, не будет в нехватке ссылок, где бы вы ни начинали - напротив, у вас будет полная противоположность, и вам нужно будет реализовать алгоритм, чтобы отслеживать, где вы 'Вы были, куда вам следует идти дальше и как избежать полубесконечных и бесконечных циклов.

1 голос
/ 03 августа 2010

Результаты другой поисковой системы по ключевым словам из проблемной области, которую вы пытаетесь исследовать, может быть?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...