Question

У меня есть задание mapreduce, где путь ввода файла: /basedirectory/*/*.txt

Внутри базового каталога у меня есть разные подпапки (CaseA, CaseB и т. Д.), Каждая из которых содержит текстовые файлы hdfs.

На этапе составления карты задания я хочу выяснить, откуда именно произошел фрагмент данных (например, CaseA). Как мне этого добиться?

Я сделал нечто подобное для заданий mapreduce с более чем 1 входной таблицей hbase, где я использую context.getInputSplit (). GetTableName (), чтобы найти фактическое имя таблицы, но не уверен, что делать с входными файлами HDFS.

ki2 · Answer 1 · 24 марта 2019

Вы можете получить разделение ввода, используя context.getInputSplit() (где context равно mapper.context), а затем используйте метод .getPath() в inputSplit, чтобы вернуть путь к файлу.

Как я могу получить путь к файлу для сегмента данных в Mapper задания Mapreduce?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу получить путь к файлу для сегмента данных в Mapper задания Mapreduce?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы