Я пытаюсь поместить таблицу из текстового файла в dataframe.Текстовый файл был создан из PDF-файла. Я относительно новичок в Python.У меня есть функция, которая может обрабатывать определенный формат текстовой таблицы.Например, мой код может обрабатывать, когда во втором столбце есть только MU ../ All использует / All / MU и нет другого текста, а четвертый столбец меньше по длине, чем пятый.Он также может обрабатывать, если в первом столбце есть LM ../ (LM ..) / 3333 (только цифры), но без отступа. Но мне это кажется слишком сложным.Поскольку во втором столбце могут быть предложения и слова, отличные от упомянутых ранее, а в одном ряду четвертый столбец длиннее пятого, а в другом - первый отступ.Я застрял с этим.
LM1111 MU1111 Dev text1 text1 text1 text1 medium
text2 text2 text2 text2 text3 text3
Text4 text4
(LM2222) text5 text5 Val,dev text7 text7 text7 low. Text10
Text6 text6 text8 text8 text8 text11 text11
Text9 text9 text9
MU2222 Val text12 text12 text12 high
3333 MU3333 text13 text13 text13
Конечный кадр данных должен иметь 5 столбцов и 3 строки, как показано ниже
LM1111 MU1111 Dev text1 text1 text1 text1 medium
text2 text2 text2 text2 text3 text3
Text4 text4
(LM2222) text5 text5 Val,dev text7 text7 text7 low. Text10
Text6 text6 text8 text8 text8 text11 text11
Text9 text9 text9
3333. MU2222 Val text12 text12 text12 high
MU3333 text13 text13 text13
Может кто-нибудь, пожалуйста, помогите мне с этим?Примечание: «текст ..» может быть любым предложением / несколькими строками предложений, словами, цифрами или специальными символами.Я пробовал все решения, размещенные на stackoverflow, пробовал tabula-py, pypdf2, pdfminer.Кажется, ничто не поможет.Любая помощь будет оценена.