шаблон регулярного выражения Python - PullRequest
0 голосов
/ 01 марта 2019

Я по шаблону регулярных выражений исправляю файл со многими испорченными таблицами.

Предполагается, что следующие таблицы:

Header 1
Duration    1    2    3    4
25        1.1  2.2  3.3  4.4    
50        5.5  6.6  7.7  8.8
75        9.9  0.0  1.1  2.2
mean      5.6  6.7  9.9  9.0
Footer 1

Header 2
Duration    1    2    3    4
25        1.1  2.2  3.3  25.6
50        5.5  6.6  7.7  8.8
75        9.9  0.0  1.1  2.2
mean      5.6  6.7  9.9  9.0
Footer 2

Но после копирования и вставки из очень большого файла PDF результирующий текст произвольно содержит несколько новых строк в середине столбцов:

Header 1
Duration    1    2  
3    4
25        1.1  2.2  3.3  4.4    
50        5.5  6.6  7.7 
   8.8
75        9.9  0.0  1.1  2.2
mean      5.6  6.7  9.9  9.0
Footer 1

Header 2
Duration    1    2    3  
   4 
25        1.1  2.2
25.6  4.4  
50        5.5  6.6 
  7.7  8.8
75        9.9  0.0  1.1  2.2
mean      5.6  6.7  9.9  9.0
Footer 2

Правильные строки должны начинаться либо с определенных верхних и нижних колонтитулов, 'Duration' и одной из статистических данных 25, 50, 75 и mean.

Так что я после регулярного выражения, которое находитвсе:

  • новые строки
  • , за которыми следует пробел
  • или любая строка, которая НЕ находится в наборе верхних и нижних колонтитулов, статистики.

Вот то, что я придумал, но, похоже, это не работает:

'(\n)[^257mHDF][^05euo]'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...