Я думаю, лучше всего спросить на примере.
Я разбираю что-то вроде ниже (определения прямоугольника и текста в содержимом PDF):
---
---
85.039 42.52 42.519 42.52 re
W--
---
---
127.559 42.52 42.519 42.52 re
W--
---
---
170.078 42.52 42.52 42.52 re
W--
---
---
BT
---
Text
---
ET
---
---
170.078 42.52 42.52 42.52 re
W--
---
---
127.559 42.52 42.519 42.52 re
W--
---
---
BT
---
Text
---
ET
---
---
170.078 42.52 42.52 42.52 re
W--
---
---
BT
---
Text
---
ET
---
---
Тире, например, только , в реальных точках данных может быть что угодно (различные управляющие символы / цифры / матрицы / еще много чего).
В настоящее время я собираю эти группы:
# Clipping Rectangle
(?<x>\b[-0-9\.]+\b)(\s)
(?<y>\b[-0-9\.]+\b)(\s)
(?<width>\b[-0-9\.]+\b)(\s)
(?<height>\b[-0-9\.]+\b)(\s)
(re\nW)
(.*?)
# Text
(BT)
(?<text>.*?)
(ET)
Но в этих матчах захватывается первый (самый дальний) прямоугольник отсечения вместо последнего (ближайшего). Как я могу захватить ближайшие группы отсечения к текстовым группам , используя Regex ?
У меня есть это:
Но я хочу этого:
ОБНОВЛЕНИЕ: см. Regex101 .