Question

Я подумываю о запуске кластера hadoop на amazon ec2 для загрузки нескольких десятков тысяч файлов и последующей их обработки, но прежде чем заняться этим, мне хотелось бы узнать, есть ли у кого-то более опытный с hadoop, чем мне кажется, что это возможно? У меня есть некоторые сомнения по поводу возможности загрузки файлов на рабах Hadoop.

Если вы считаете, что это возможно, могу ли я ожидать, что у каждого ведомого устройства, работающего на amazon ec2, будет свой IP-адрес?

Я бы хотел использовать python для выполнения большей части работы (например, модуль urllib2 для загрузки) и как можно меньше java.

Thejas · Answer 1 · 21 февраля 2012

Возможна загрузка данных в hadoop на ec2. Hadoop имеет распределенную файловую систему (HDFS), которая обеспечивает размещение блоков данных на ведомых устройствах, а также учитывает коэффициент репликации, указанный в конфигурациях.

У ведомых в ec2 разные IP-адреса.

Загрузка многих больших файлов через Amazon EC2 Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузка многих больших файлов через Amazon EC2 Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов