Многоуровневый паук с регулярным выражением? - PullRequest
1 голос
/ 13 октября 2011

Мне нужен веб-паук, чтобы найти определенные ссылки с регулярным выражением.

Паук будет посещать список веб-сайтов, находить ссылки, которые соответствуют списку шаблонов регулярных выражений, посещать эти соответствующие ссылки и повторяться до заданного уровня глубины..

Я собирался написать это на php, но я не очень хорошо разбираюсь с потоками на php, и мне нужны потоки для этого приложения.

Итак, что, по вашему мнению, является лучшим решением?

Может быть, есть какое-то существующее приложение / код, который я мог бы настроить для создания этого паука.

1 Ответ

2 голосов
/ 13 октября 2011

Существует несколько сканеров, которые вы можете использовать бесплатно:

Nutch, вероятно, лучший, и я бы порекомендовал, если вы его используете, вы используете их функциональность OPIC вместо указания сканированияуглубиться.OPIC позволяет сканеру разумно определять, какой сайт следует сканировать следующим, без необходимости искусственного ограничения глубины.

...