Hadoop: карта / сокращение от HDFS - PullRequest
0 голосов
/ 24 апреля 2009

Я могу ошибаться, но все (?) Примеры, которые я видел в Apache Hadoop, принимают в качестве входных данных файл, хранящийся в локальной файловой системе (например, org.apache.hadoop.examples.Grep)

Есть ли способ загрузки и сохранения данных в файловой системе Hadoop (HDFS)? Например, я поместил в HDFS файл с разделителями табуляции с именем «Store.xls», используя hadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls. Как мне настроить JobConf для чтения?

Спасибо.

Ответы [ 3 ]

1 голос
/ 09 мая 2009

Пьер, конфигурация по умолчанию для Hadoop - это запуск в локальном режиме, а не в распределенном режиме. Скорее всего, вам нужно просто изменить некоторые настройки в вашем hadoop-site.xml. Похоже, что вашей файловой системой по умолчанию все еще является localhost, когда она должна быть hdfs: // youraddress: yourport. Посмотрите ваши настройки для fs.default.name, а также см. Справку по настройке в блоге Майкла Нолла для получения более подробной информации.

1 голос
/ 14 мая 2009

FileInputFormat.setInputPaths (conf, новый путь ("hdfs: // имя хоста: порт / пользователь / me / сохраненный.xls"));

Это будет делать

1 голос
/ 25 апреля 2009
JobConf conf = new JobConf(getConf(), ...);
...
FileInputFormat.setInputPaths(conf, new Path("stored.xls"))
...
JobClient.runJob(conf);
...

setInputPaths сделает это.

...