Question

У меня в настоящее время есть корзина на AWS S3, давайте просто для простоты назовем ее «bucketX».в BucketX есть 4 папки:

data, docs1, docs2, docs3.

Я хочу запустить задание преобразования HDFS во всех каталогах, кроме «data», используя docs1, docs2 иdocs3 в качестве входных каталогов и некоторых других выходных каталогов.

Я немного запутался, как настроить это в драйвере.

Я знаю

 FileInputFormat.addInputPath(job, new Path(args[0]));

существует, но как конкретно я могу вручную настроить 3 входных пути, которые будут использоваться?Любая помощь будет принята с благодарностью.

Ben Watson · Answer 1 · 09 мая 2019

Вы можете использовать подстановочные знаки -

FileInputFormat.addInputPath(job, new Path("s3://bucketX/docs*"));

Несколько папок ввода для hadoop mapreduce и s3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Несколько папок ввода для hadoop mapreduce и s3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы