Я подумываю о запуске кластера hadoop на amazon ec2 для загрузки нескольких десятков тысяч файлов и последующей их обработки, но прежде чем заняться этим, мне хотелось бы узнать, есть ли у кого-то более опытный с hadoop, чем мне кажется, что это возможно? У меня есть некоторые сомнения по поводу возможности загрузки файлов на рабах Hadoop.
Если вы считаете, что это возможно, могу ли я ожидать, что у каждого ведомого устройства, работающего на amazon ec2, будет свой IP-адрес?
Я бы хотел использовать python для выполнения большей части работы (например, модуль urllib2 для загрузки) и как можно меньше java.