Есть пара пакетов, которые позволяют вам сделать это. Проверьте
python -docx .
docx2txt (обратите внимание, что это не похоже работает с .doc
). Что касается этого , похоже, он получает больше информации, чем python -docx. Из оригинальной документации:
import docx2txt
# extract text
text = docx2txt.process("file.docx")
# extract text and write images in /tmp/img_dir
text = docx2txt.process("file.docx", "/tmp/img_dir")
textract (работает через docx2txt ).
Поскольку .docx
файлы - это просто .zip
файлы с измененное расширение, , это показывает, как получить доступ к содержимому. Это существенная разница с .doc
файлами и причина, по которой некоторые (или все) из вышеперечисленного не работают с .doc
s. В этом случае вам, скорее всего, придется сначала конвертировать doc
-> docx
. antiword
является опцией.