Как мне сопоставить весь текстовый документ, а не построчно? - PullRequest
0 голосов
/ 17 мая 2019

У меня есть Java Map / Reduce Job, которая работает с большими блоками текста и выполняет регулярные выражения. В настоящее время код возвращает одну строку текста за раз и обрабатывает ее:

public class MetricsMapper extends Mapper<LongWritable, Text, Text, Text> {
                @Override
                public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
                                String line = value.toString();
                           ...process the line...

Я бы хотел запустить код всего документа, а не строки за раз. Я обеспокоен тем, что некоторые фразы, которые я ищу, могут быть разбиты между строками. Как обработать весь документ за раз?

...