Загрузка многих больших файлов через Amazon EC2 Hadoop - PullRequest
0 голосов
/ 13 февраля 2012

Я подумываю о запуске кластера hadoop на amazon ec2 для загрузки нескольких десятков тысяч файлов и последующей их обработки, но прежде чем заняться этим, мне хотелось бы узнать, есть ли у кого-то более опытный с hadoop, чем мне кажется, что это возможно? У меня есть некоторые сомнения по поводу возможности загрузки файлов на рабах Hadoop.

Если вы считаете, что это возможно, могу ли я ожидать, что у каждого ведомого устройства, работающего на amazon ec2, будет свой IP-адрес?

Я бы хотел использовать python для выполнения большей части работы (например, модуль urllib2 для загрузки) и как можно меньше java.

1 Ответ

0 голосов
/ 21 февраля 2012

Возможна загрузка данных в hadoop на ec2. Hadoop имеет распределенную файловую систему (HDFS), которая обеспечивает размещение блоков данных на ведомых устройствах, а также учитывает коэффициент репликации, указанный в конфигурациях.

У ведомых в ec2 разные IP-адреса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...