У меня есть текст извлечения PDF, который выглядит следующим образом
================================= =========
TITLE
subtitle
Lorem Ipsum - это просто фиктивный текст печати
и наборное дело. Lorem Ipsum был
стандартным фиктивным текстом в отрасли с 1500-х годов.
подзаголовок
Lorem Ipsum - это просто фиктивный текст для печати и
наборная индустрия. Lorem Ipsum был
стандартным фиктивным текстом в отрасли с 1500-х годов.
======================== ================
в конце каждой строки появляется новая строка ('\ n').
Я пытаюсь найти данное предложение с помощью регулярного выражения и извлечь абзац, в котором оно было найдено. Абзац - это что-либо между двумя последовательными новыми строками (\ n \ n). Обратите внимание, что это нужно делать ленивым методом.
FYI:
1 - Предложение может начинаться одной строкой и заканчиваться другой
2 - Я не могу изменить заданный текстовый формат
3 - Существует ограничение на количество возвращаемых строк, поэтому, если я не могу найти \ n \ n после 10 строк вверх или вниз, я должен вернуть 10 строк до и 10 строк после ключевого слова регулярного выражения