Question

Как я могу прочитать из файла слова (docx) в python. Я могу читать из текстового файла, но не могу сделать то же самое для документа MS Office Word. Есть предложения?

sancho.s · Answer 1 · 10 апреля 2020

Есть пара пакетов, которые позволяют вам сделать это. Проверьте

python -docx .
docx2txt (обратите внимание, что это не похоже работает с .doc). Что касается этого , похоже, он получает больше информации, чем python -docx. Из оригинальной документации:

import docx2txt

# extract text
text = docx2txt.process("file.docx")

# extract text and write images in /tmp/img_dir
text = docx2txt.process("file.docx", "/tmp/img_dir")

textract (работает через docx2txt ).

Поскольку .docx файлы - это просто .zip файлы с измененное расширение, , это показывает, как получить доступ к содержимому. Это существенная разница с .doc файлами и причина, по которой некоторые (или все) из вышеперечисленного не работают с .doc s. В этом случае вам, скорее всего, придется сначала конвертировать doc -> docx. antiword является опцией.

user2372210 · Answer 2 · 10 апреля 2020

Смотрите эту библиотеку, которая позволяет читать файлы docx https://python-docx.readthedocs.io/en/latest/

Вам следует использовать библиотеку python -docx, доступную в PyPi. Тогда вы можете использовать следующие

doc = docx.Document('myfile.docx')
allText = []
for docpara in doc.paragraphs:
    allText.append(docpara.text)

Читать из файла слова в python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Читать из файла слова в python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы