Hadoop Map Reduce - вложенные циклы для значений Iterable <Text>в Reduce игнорируют текстовый результат при записи их в контекст - PullRequest
0 голосов
/ 05 сентября 2018

Я новичок в hadoop, и я пытался запустить сокращение карты для простого входного файла (см. Пример). Я пытался сделать какой-то декартово произведение из списка атрибутов, используя два цикла for, и по какой-то причине полученное значение результата всегда было пустым. Я попытался поиграть с ним, и в конце концов это сработало, только если я установил текстовый результат, перебирая его (я знаю, это тоже звучит странно для меня). Буду признателен, если вы поможете мне понять проблему, возможно, я что-то не так сделаю.

Это входной файл, который у меня есть.

A 1
B 2
C 1
D 2
C 2
E 1

Я бы хотел получить следующий вывод:

1 A-C, A-E, C-E
2 B-C, B-D, C-D

Итак, я попытался реализовать следующую карту Reduce Class: открытый класс DigitToPairOfLetters {

    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, Text> {

        private Text digit = new Text();
        private Text letter = new Text();

        public void map(Object key, Text value, Context context
                ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                letter.set(itr.nextToken());
                digit.set(itr.nextToken());
                context.write(digit, letter);
            }
        }
    }

    public static class DigitToLetterReducer
            extends Reducer<Text, Text, Text, Text> {
        private Text result = new Text();

        public void reduce(Text key, Iterable<Text> values,
                Context context
                ) throws IOException, InterruptedException {
            List<String> valuesList = new ArrayList<>();
            for (Text value :values) {
                valuesList.add(value.toString());
            }
            StringBuilder builder = new StringBuilder();
            for (int i=0; i<valuesList.size(); i++) {
                for (int j=i+1; j<valuesList.size(); j++) {
                    builder.append(valuesList.get(i)).append(" 
").append(valuesList.get(j)).append(",");
                }
            }
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "digit to letter");
        job.setJarByClass(DigitToPairOfLetters.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(DigitToLetterReducer.class);
        job.setReducerClass(DigitToLetterReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

но этот код предоставит мне следующий вывод пустых списков:

1
2

Когда я добавил set for result в циклы for, это сработало: открытый класс DigitToPairOfLetters {

    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, Text> {

        private Text digit = new Text();
        private Text letter = new Text();

        public void map(Object key, Text value, Context context
                ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                letter.set(itr.nextToken());
                digit.set(itr.nextToken());
                context.write(digit, letter);
            }
        }
    }

    public static class DigitToLetterReducer
            extends Reducer<Text, Text, Text, Text> {
        private Text result = new Text();

        public void reduce(Text key, Iterable<Text> values,
                Context context
                ) throws IOException, InterruptedException {
            List<String> valuesList = new ArrayList<>();
            for (Text value :values) {
                valuesList.add(value.toString());
                // TODO: We set the valuesList in the result since otherwise the 
hadoop process will ignore the values
                // in it.
                result.set(valuesList.toString());
            }
            StringBuilder builder = new StringBuilder();
            for (int i=0; i<valuesList.size(); i++) {
                for (int j=i+1; j<valuesList.size(); j++) {
                    builder.append(valuesList.get(i)).append(" 
").append(valuesList.get(j)).append(",");
                    // TODO: We set the builder every iteration in the loop since otherwise the hadoop process will
                    // ignore the values
                    result.set(builder.toString());
                }
            }
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "digit to letter");
        job.setJarByClass(DigitToPairOfLetters.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(DigitToLetterReducer.class);
        job.setReducerClass(DigitToLetterReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

Это даст мне следующий результат:

1   [A C,A E,C E]
2   [B C,B D,C D]

Буду признателен за помощь

1 Ответ

0 голосов
/ 05 сентября 2018

Ваш первый подход, кажется, хорошо, вам просто нужно добавить эту строку:

result.set(builder.toString());

до

context.write(key, result);

Так же, как вы сделали во второй функции.

Context.write сбрасывает выходные данные, и поскольку результат - просто пустой объект, в качестве значения ничего не передается, только ключ передается. Поэтому перед передачей необходимо установить значение (A-E и т. Д.) В результате.

...