Запустите веб-сканер для выбранных сайтов в Google App Engine? - PullRequest
3 голосов
/ 06 декабря 2010

Мне нужно написать сканер, чтобы извлечь некоторую информацию только из нескольких предварительно выбранных веб-сайтов.

Я знаю, что это простая работа, но я подумываю об использовании Google App Engine, чтобы сделать это.

Может быть, я попробую Натча сделать это для меня.

Насколько это возможно?

1) размещение сканера в инфраструктуре Google 2) Nutch + app engine - будет ли это возможно?

1 Ответ

4 голосов
/ 07 декабря 2010

Просто взглянув на документы nutch , я вижу комментарии типа "[t] his - это вторая версия Nutch, полностью основанная на базовой платформе Hadoop" что заставляет меня подозревать, что это не будет работать на App Engine . Приложения App Engine работают в Python или Java песочнице.

Тем не менее, вы должны иметь возможность собрать базовый сканер в App Egnine. Базовая реализация, вероятно, включала бы запуск tasks , использующих urlfetch для захвата страниц, а затем, при необходимости, вставку дополнительных задач для обработки ссылок на ссылки в документе. Вы можете запустить сканирование, используя запланированные задания .

...