Получить входной путь в классе Hadoop Mapper - PullRequest
2 голосов
/ 07 марта 2011

Я реализовал простой проект MapReduce в Hadoop для обработки журналов. Входной путь - это каталог, в котором находятся журналы.

Это работает нормально, но я хотел бы знать, как обрабатывается входной путь журнала в любое время в классе, который реализует Mapper. Код Mapper:

public class StatsMapper extends MapReduceBase implements Mapper<WritableComparable<Text>,Text,Text,Text> { 

    public static final Log LOG = LogFactory.getLog(StatsMapper.class);

    public void configure(JobConf conf) {}

    public void map(WritableComparable<Text> key, Text value, OutputCollector<Text,Text> output, Reporter reporter)
            throws IOException {

        process(key,value);

    }

}

Есть идеи?

Заранее спасибо

1 Ответ

2 голосов
/ 08 марта 2011

Прочитайте раздел InputFormat здесь

Как эти входные файлы разделяются и читаются, определяется InputFormat. InputFormat - это класс, который предоставляет следующие функциональные возможности: Выбирает файлы или другие объекты, которые должны быть использованы для ввода Определяет InputSplits, которые разбивают файл на задачи Предоставляет фабрику для объектов RecordReader, которые читают файл

...