Читать из файла слова в python - PullRequest
0 голосов
/ 10 апреля 2020

Как я могу прочитать из файла слова (docx) в python. Я могу читать из текстового файла, но не могу сделать то же самое для документа MS Office Word. Есть предложения?

Ответы [ 2 ]

1 голос
/ 10 апреля 2020

Есть пара пакетов, которые позволяют вам сделать это. Проверьте

  1. python -docx .

  2. docx2txt (обратите внимание, что это не похоже работает с .doc). Что касается этого , похоже, он получает больше информации, чем python -docx. Из оригинальной документации:

import docx2txt

# extract text
text = docx2txt.process("file.docx")

# extract text and write images in /tmp/img_dir
text = docx2txt.process("file.docx", "/tmp/img_dir") 

textract (работает через docx2txt ).

Поскольку .docx файлы - это просто .zip файлы с измененное расширение, , это показывает, как получить доступ к содержимому. Это существенная разница с .doc файлами и причина, по которой некоторые (или все) из вышеперечисленного не работают с .doc s. В этом случае вам, скорее всего, придется сначала конвертировать doc -> docx. antiword является опцией.

1 голос
/ 10 апреля 2020

Смотрите эту библиотеку, которая позволяет читать файлы docx https://python-docx.readthedocs.io/en/latest/

Вам следует использовать библиотеку python -docx, доступную в PyPi. Тогда вы можете использовать следующие

doc = docx.Document('myfile.docx')
allText = []
for docpara in doc.paragraphs:
    allText.append(docpara.text)
...