правильно читать docx файлы в python - PullRequest
0 голосов
/ 04 июля 2019

Я пытался читать файлы docx, но безуспешно в python.Проблема в том, что он почему-то удаляет числа в начале моих строк.

text = docx2txt.process("X.docx")
text_new = text.replace('\n\n',"\n")

text_new.split('\n')

У кого-нибудь есть предложения, почему это происходит?

Это вывод:

['1. melléklet a 36/2018. (XI. 13.) MNB rendelethez',

 '',

 'A pénz- és hitelpiaci szervezetek felügyeleti jelentéseire vonatkozó általános kitöltési előírások',

 '',

 '',

 'Kapcsolódó jogszabályok',

 '\ta Magyar Export-Import Bank Részvénytársaságról és a Magyar Exporthitel Biztosító Részvénytársaságról szóló 1994. évi XLII. törvény 

Вместо этого вывод должен содержать число «1».до 'Kapcsolódó jogszabályok' и не должен говорить \ta.

...