Я новичок в hadoop, и я пытался запустить сокращение карты для простого входного файла (см. Пример).
Я пытался сделать какой-то декартово произведение из списка атрибутов, используя два цикла for, и по какой-то причине полученное значение результата всегда было пустым.
Я попытался поиграть с ним, и в конце концов это сработало, только если я установил текстовый результат, перебирая его (я знаю, это тоже звучит странно для меня).
Буду признателен, если вы поможете мне понять проблему, возможно, я что-то не так сделаю.
Это входной файл, который у меня есть.
A 1
B 2
C 1
D 2
C 2
E 1
Я бы хотел получить следующий вывод:
1 A-C, A-E, C-E
2 B-C, B-D, C-D
Итак, я попытался реализовать следующую карту Reduce Class:
открытый класс DigitToPairOfLetters {
public static class TokenizerMapper
extends Mapper<Object, Text, Text, Text> {
private Text digit = new Text();
private Text letter = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
letter.set(itr.nextToken());
digit.set(itr.nextToken());
context.write(digit, letter);
}
}
}
public static class DigitToLetterReducer
extends Reducer<Text, Text, Text, Text> {
private Text result = new Text();
public void reduce(Text key, Iterable<Text> values,
Context context
) throws IOException, InterruptedException {
List<String> valuesList = new ArrayList<>();
for (Text value :values) {
valuesList.add(value.toString());
}
StringBuilder builder = new StringBuilder();
for (int i=0; i<valuesList.size(); i++) {
for (int j=i+1; j<valuesList.size(); j++) {
builder.append(valuesList.get(i)).append("
").append(valuesList.get(j)).append(",");
}
}
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "digit to letter");
job.setJarByClass(DigitToPairOfLetters.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(DigitToLetterReducer.class);
job.setReducerClass(DigitToLetterReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
но этот код предоставит мне следующий вывод пустых списков:
1
2
Когда я добавил set for result в циклы for, это сработало:
открытый класс DigitToPairOfLetters {
public static class TokenizerMapper
extends Mapper<Object, Text, Text, Text> {
private Text digit = new Text();
private Text letter = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
letter.set(itr.nextToken());
digit.set(itr.nextToken());
context.write(digit, letter);
}
}
}
public static class DigitToLetterReducer
extends Reducer<Text, Text, Text, Text> {
private Text result = new Text();
public void reduce(Text key, Iterable<Text> values,
Context context
) throws IOException, InterruptedException {
List<String> valuesList = new ArrayList<>();
for (Text value :values) {
valuesList.add(value.toString());
// TODO: We set the valuesList in the result since otherwise the
hadoop process will ignore the values
// in it.
result.set(valuesList.toString());
}
StringBuilder builder = new StringBuilder();
for (int i=0; i<valuesList.size(); i++) {
for (int j=i+1; j<valuesList.size(); j++) {
builder.append(valuesList.get(i)).append("
").append(valuesList.get(j)).append(",");
// TODO: We set the builder every iteration in the loop since otherwise the hadoop process will
// ignore the values
result.set(builder.toString());
}
}
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "digit to letter");
job.setJarByClass(DigitToPairOfLetters.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(DigitToLetterReducer.class);
job.setReducerClass(DigitToLetterReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
Это даст мне следующий результат:
1 [A C,A E,C E]
2 [B C,B D,C D]
Буду признателен за помощь