Ежедневно проверяйте все веб-страницы из списка веб-сайтов - PullRequest
0 голосов
/ 03 февраля 2012

Гость имеет веб-сайт A имеет партнерскую программу.
Партнерские сайты B имеют ссылки на A .
Мне нужно проверитьс определенной периодичностью (два раза в день) все веб-страницы всех партнерских сайтов (5000 сайтов) и извлекайте все ссылки от B до A .Затем я должен проверить с помощью регулярного выражения, создан ли URL определенным образом.

Я мог бы легко сделать это с PHP, но есть некоторые серьезные проблемы, с которыми, возможно, уже сталкивалось стороннее решение.

  • Я хочу использовать полосу пропускания с использованием
  • Я хочу, чтобы задача была выполнена максимально быстро
  • Проверяемые веб-страницы могут быть любительскими веб-страницами, полными ошибок и непоследовательныхhtml
  • Я хотел бы управлять только веб-страницами, которые изменились с момента последней проверки их
  • процесс должен быть автоматизирован (cron? или альтернативы?)
  • ...
  • (не стесняйтесь расширять этот список)

Но я не хочу создавать супер-пупер-мега-ультрасовременный, который-Инструмент все-таки-ещё-* ...
Я бы хотел иметь маленькое и легкое умное решение.

Как бы вы справились с такой задачей?

1 Ответ

0 голосов
/ 03 февраля 2012
 - I want to leverage bandwith usage
 - I want the task to be done the fastest possible
 - The webpages to check could amateurs web pages full of errors and inconsistent html
 - I'd like to manage only webpages that are changed since the last time I checked them the process has to be automated (cron? or alternatives?)
 - (feel free to expand this list)

Это довольно серьезные требования.

But I don't want to build a *super-duper-mega-ultra-sophisticated-that-does-everithing-and-more-tool*...

О, тогда никаких проблем ... теперь, когда вы это сказали,Я думаю, что мы сократили его до супер-пупер-мега-ультрасовременного инструмента, который делает все возможное и больше это НЕ а супер-упер-мега-ультрасовременный инструмент, который делает все, что угодно, и даже больше .

Шутки в сторону, не так много инструментов, которые способны сделать то, что вы описали.Тем не менее, есть несколько довольно надежных инструментов, которые могут предоставить вам хорошую основу для достижения ваших целей.Вы упомянули PHP, но я думаю, что у вас будет больше успеха в мире Java.В частности, я бы порекомендовал вам проверить Nutch .

Надеюсь, это поможет:).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...