Лучший подход для создания собственного веб-сканера для поиска сайтов с произвольным текстом в URL? - PullRequest
0 голосов
/ 26 сентября 2010

Мне бы очень хотелось найти все сайты с ключевым словом «волны серфинга» где-то в их адресе! Но без использования ЛЮБОГО поискового движка, что означает написание чистого веб-сканера.

Проблемы, с которыми я столкнусь:

  1. Очевидно, он никогда не остановится ...
  2. Он встретит множество «мусорных» сайтов еще до того, как найдет то, что мне нужно.
  3. Вероятно, он будет работать целую вечность, пока не найдет первые 2000 сайтов ...

Я прав? или, другими словами, я должен даже попытаться сделать это таким образом? Я не хочу использовать поисковые системы, потому что они ограничивают количество результатов.

Ответы [ 2 ]

0 голосов
/ 09 декабря 2012

Поисковые роботы являются ресурсоемкими для обеих сторон - для обхода сайта и самого хоста.То, что вы пытаетесь достичь, - это иметь список сайтов, которые имеют определенные ключевые слова - так что вы просто заинтересованы в результатах поисковой системы.Это очень ограничивает возможности веб-сканеров.

Лучше всего сначала использовать первые несколько сотен страниц результатов поиска для заполнения вашего веб-сканера.

0 голосов
/ 26 сентября 2010

Поисковики ограничивают результаты в каком смысле?Они специально для этого.Чтобы найти вещи, и вы должны использовать это.Даже если вы в конечном итоге напишите свой собственный сканер, этому сканеру потребуются некоторые начальные точки (стартовые URL), чтобы начать сканирование.Может быть, вы можете использовать результаты поиска от Google в качестве такового, но с другой стороны, вы не получите лучшего результата, так как большую часть времени (и после довольно долгого времени) вы будете получать те же URL / адреса, которые уже являются частьюрезультат поиска.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...