неправильно выровненная таблица из txt файла в панду - PullRequest
0 голосов
/ 17 ноября 2018

Я пытаюсь поместить таблицу из текстового файла в dataframe.Текстовый файл был создан из PDF-файла. Я относительно новичок в Python.У меня есть функция, которая может обрабатывать определенный формат текстовой таблицы.Например, мой код может обрабатывать, когда во втором столбце есть только MU ../ All использует / All / MU и нет другого текста, а четвертый столбец меньше по длине, чем пятый.Он также может обрабатывать, если в первом столбце есть LM ../ (LM ..) / 3333 (только цифры), но без отступа. Но мне это кажется слишком сложным.Поскольку во втором столбце могут быть предложения и слова, отличные от упомянутых ранее, а в одном ряду четвертый столбец длиннее пятого, а в другом - первый отступ.Я застрял с этим.

LM1111      MU1111  Dev      text1 text1 text1 text1   medium
                                   text2 text2 text2 text2   text3 text3 
                                                         Text4 text4 

 (LM2222)   text5 text5   Val,dev   text7 text7 text7         low. Text10 
           Text6 text6             text8 text8 text8         text11 text11 
                                   Text9 text9 text9 

           MU2222       Val      text12 text12 text12       high
 3333      MU3333                   text13 text13 text13

Конечный кадр данных должен иметь 5 столбцов и 3 строки, как показано ниже

LM1111      MU1111       Dev       text1 text1 text1 text1   medium
                                   text2 text2 text2 text2   text3 text3 
                                                             Text4 text4 

(LM2222)   text5 text5   Val,dev   text7 text7 text7         low. Text10 
           Text6 text6             text8 text8 text8         text11 text11 
                                   Text9 text9 text9 

3333.       MU2222        Val      text12 text12 text12      high
            MU3333                 text13 text13 text13                             

Может кто-нибудь, пожалуйста, помогите мне с этим?Примечание: «текст ..» может быть любым предложением / несколькими строками предложений, словами, цифрами или специальными символами.Я пробовал все решения, размещенные на stackoverflow, пробовал tabula-py, pypdf2, pdfminer.Кажется, ничто не поможет.Любая помощь будет оценена.

...