У меня есть Java Map / Reduce Job, которая работает с большими блоками текста и выполняет регулярные выражения. В настоящее время код возвращает одну строку текста за раз и обрабатывает ее:
public class MetricsMapper extends Mapper<LongWritable, Text, Text, Text> {
@Override
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString();
...process the line...
Я бы хотел запустить код всего документа, а не строки за раз. Я обеспокоен тем, что некоторые фразы, которые я ищу, могут быть разбиты между строками.
Как обработать весь документ за раз?