Question

Я пытаюсь собрать некоторые данные для эксперимента, который я провожу. У меня есть веб-браузер, который я хотел бы запустить на множестве экземпляров Amazon EC2, а затем сбросить данные в S3, чтобы я мог проанализировать их позже.

В настоящее время у меня есть код, написанный на ruby, но я могу легко написать его на другом языке. Как бы я поступил так?

Matthew Rathbone · Answer 1 · 20 октября 2011

Для записи в S3 используйте гем Rightaws, у него действительно хороший интерфейс s3: http://rightaws.rubyforge.org/right_aws_gem_doc/

Ваш процесс, вероятно, будет выглядеть так:

Сбор данных
Запись в некоторый промежуточный элемент на каждом узле
Отправить файл на S3 (используя уникальную схему именования)
Повторите

В качестве альтернативы используйте базу данных. Тогда все в том же месте. Вы можете использовать что-то вроде mongodb, потому что это без схемы, но вы все равно можете иметь полезные индексы (например, индекс домена). Это хорошо до миллионов строк.

Если вы поместите материал в s3, это будут просто плоские файлы, поэтому поиск данных на другом конце займет много времени.

Nishank Mahore · Answer 2 · 25 июня 2016

На рынке много скребков

Scrapy является одним из лучших инструментов. это довольно просто

scrapinghub.com

Веб-сканеры EC2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Веб-сканеры EC2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы