Веб-сканеры EC2 - PullRequest
       6

Веб-сканеры EC2

0 голосов
/ 20 октября 2011

Я пытаюсь собрать некоторые данные для эксперимента, который я провожу. У меня есть веб-браузер, который я хотел бы запустить на множестве экземпляров Amazon EC2, а затем сбросить данные в S3, чтобы я мог проанализировать их позже.

В настоящее время у меня есть код, написанный на ruby, но я могу легко написать его на другом языке. Как бы я поступил так?

Ответы [ 2 ]

1 голос
/ 20 октября 2011

Для записи в S3 используйте гем Rightaws, у него действительно хороший интерфейс s3: http://rightaws.rubyforge.org/right_aws_gem_doc/

Ваш процесс, вероятно, будет выглядеть так:

  • Сбор данных
  • Запись в некоторый промежуточный элемент на каждом узле
  • Отправить файл на S3 (используя уникальную схему именования)
  • Повторите

В качестве альтернативы используйте базу данных. Тогда все в том же месте. Вы можете использовать что-то вроде mongodb, потому что это без схемы, но вы все равно можете иметь полезные индексы (например, индекс домена). Это хорошо до миллионов строк.

Если вы поместите материал в s3, это будут просто плоские файлы, поэтому поиск данных на другом конце займет много времени.

0 голосов
/ 25 июня 2016

На рынке много скребков

Scrapy является одним из лучших инструментов. это довольно просто

scrapinghub.com

...