Как искать определенный тип веб-адресов? - PullRequest
0 голосов
/ 23 февраля 2010

Смотрите эти URL:

http://en.wikipedia.org/wiki/1_(number)

http://en.wikipedia.org/wiki/10_(number)

http://en.wikipedia.org/wiki/100_(number)

http://en.wikipedia.org/wiki/10000_(number)

Есть ли способ найти список всех страниц этого формата в WWW?

Ответы [ 2 ]

1 голос
/ 23 февраля 2010

Я вижу две проблемы, которые нужно решить.

Первый: у вас нет реального центрального каталога всех URL-адресов в мире, и даже у вас не будет карты сайта на каждом сайте, который вы знаете

Идея состояла бы в том, чтобы проверить, позволяет ли поисковая система (Google или другая) работать на уровне URL вместо уровня контента для поиска. Затем вы сгенерируете поисковый запрос, который может вернуть список сайтов, соответствующих вашему регулярному выражению, и попытаетесь это сделать.

Второй: для некоторых веб-сервисов, которые могут предоставлять функции в качестве ресурсов, у вас может быть бесконечный список URL, соответствующий регулярному выражению

Вы можете использовать несколько проверок, чтобы избежать этого.

Кстати, вы сталкиваетесь с той же проблемой, что и каждая поисковая система ... проводя инвентаризацию всей сети. Никто никогда не решал эту проблему.

EDIT: webcrawler основной алгоритм

take a list of seed sites
for each seed
  parse the webpage returned
  add each link found in the page to the seed list
  apply some algorithms for referencing the page to several keywords in a db
1 голос
/ 23 февраля 2010

Обычно grep -E "http://en.wikipedia.org/wiki/10*_\(number\)" list_of_urls

Но если вы хотите узнать, представляет ли какой-либо сайт какой-либо контент по URL-адресам какого-либо формата, у вас есть несколько возможностей.

  1. Существует некоторая карта сайта, где вы можете получить список list_of_urls и использовать его в grep. (http://en.wikipedia.org/wiki/Special:AllPages)
  2. Вы должны составить список эти адреса и попробуйте их. Не существует стандартного способа для HTTP-сервера рекламировать все свои страницы.
  3. Путь Google - сканируйте сайт по ссылкам, чтобы вы могли найти все общедоступные страницы, которые у него есть, а затем выполните поиск в созданном вами списке.

Кроме того, Google поддерживает ключевые слова allinurl: и site:, они также могут вам помочь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...