Читайте файл .doc построчно в python, используя win32com - PullRequest
0 голосов
/ 02 июля 2019

Я пытаюсь извлечь заголовок и некоторые другие данные из отчетов в формате .doc (НЕ .docx!).Код, который я написал до сих пор, полностью читает весь текст, игнорируя строки и абзацы (либо непосредственно читая, либо сохраняя в файле .txt):

DOC_FILEPATH = os.path.join('file.doc')
doc = win32com.client.GetObject(DOC_FILEPATH)
text= doc.Range().Text

Как мне прочитать файл, чтобы он сохранилстроки и абзацы как они есть?

1 Ответ

1 голос
/ 02 июля 2019

Я нашел решение для моей проблемы. Вероятно, полезно для подобных случаев. Тег .Text должен быть удален с конца text= doc.Range().Text, после чего читатель красиво сохраняет строки и абзацы :). Таким образом, правильный код должен выглядеть примерно так:

DOC_FILEPATH = os.path.join('file.doc')
doc = win32com.client.GetObject(DOC_FILEPATH)
text= doc.Range()
...