Я использую приведенный ниже код сокращения карты для вычисления суммы и средней длины слов, начинающихся с каждого английского алфавита.
For example : If the doc only contains the word 'and' 5 times
letter | total words | average length
a 5 3
Программа mapreduce выглядит следующим образом:
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class LetterWiseAvgLengthV1
public static class TokenizerMapper
extends Mapper<LongWritable, Text, Text, Text>
public void map(LongWritable key, Text value, Context context
) throws IOException, InterruptedException
String st [] = value.toString().split("\\s+");
for(String word : st) {
String wordnew=word.replaceAll("[^a-zA-Z]","");
String firstLetter = wordnew.substring(0, 1);
// write ('a',3) if the word is and
context.write(new Text(firstLetter), new Text(String.valueOf(wordnew.length())));
else continue;
public static class IntSumReducer
extends Reducer<Text,Text,Text,Text>
public void reduce(Text key, Iterable<Text> values,
Context context
) throws IOException, InterruptedException
int sum=0,count=0;
for (Text val : values)
sum += Integer.parseInt(val.toString());
count+= 1;
float avg=(sum/(float)count);
String op="Average length of " + count + " words = " + avg;
context.write(new Text(key), new Text(op));
public static void main(String[] args) throws Exception
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "wordLenAvgCombiner");
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
Когда я выполняю программу ниже для текстового документа, она создает пустой выходной каталог в HDFS.Сбоев во время выполнения нет, но папка вывода всегда пуста