Я по шаблону регулярных выражений исправляю файл со многими испорченными таблицами.
Предполагается, что следующие таблицы:
Header 1
Duration 1 2 3 4
25 1.1 2.2 3.3 4.4
50 5.5 6.6 7.7 8.8
75 9.9 0.0 1.1 2.2
mean 5.6 6.7 9.9 9.0
Footer 1
Header 2
Duration 1 2 3 4
25 1.1 2.2 3.3 25.6
50 5.5 6.6 7.7 8.8
75 9.9 0.0 1.1 2.2
mean 5.6 6.7 9.9 9.0
Footer 2
Но после копирования и вставки из очень большого файла PDF результирующий текст произвольно содержит несколько новых строк в середине столбцов:
Header 1
Duration 1 2
3 4
25 1.1 2.2 3.3 4.4
50 5.5 6.6 7.7
8.8
75 9.9 0.0 1.1 2.2
mean 5.6 6.7 9.9 9.0
Footer 1
Header 2
Duration 1 2 3
4
25 1.1 2.2
25.6 4.4
50 5.5 6.6
7.7 8.8
75 9.9 0.0 1.1 2.2
mean 5.6 6.7 9.9 9.0
Footer 2
Правильные строки должны начинаться либо с определенных верхних и нижних колонтитулов, 'Duration' и одной из статистических данных 25, 50, 75 и mean.
Так что я после регулярного выражения, которое находитвсе:
- новые строки
- , за которыми следует пробел
- или любая строка, которая НЕ находится в наборе верхних и нижних колонтитулов, статистики.
Вот то, что я придумал, но, похоже, это не работает:
'(\n)[^257mHDF][^05euo]'