Несколько папок ввода для hadoop mapreduce и s3 - PullRequest
1 голос
/ 08 мая 2019

У меня в настоящее время есть корзина на AWS S3, давайте просто для простоты назовем ее «bucketX».в BucketX есть 4 папки:

data, docs1, docs2, docs3.

Я хочу запустить задание преобразования HDFS во всех каталогах, кроме «data», используя docs1, docs2 иdocs3 в качестве входных каталогов и некоторых других выходных каталогов.

Я немного запутался, как настроить это в драйвере.

Я знаю

 FileInputFormat.addInputPath(job, new Path(args[0]));

существует, но как конкретно я могу вручную настроить 3 входных пути, которые будут использоваться?Любая помощь будет принята с благодарностью.

1 Ответ

1 голос
/ 09 мая 2019

Вы можете использовать подстановочные знаки -

FileInputFormat.addInputPath(job, new Path("s3://bucketX/docs*"));
...