Чтение .xdoc Word документа изнутри Zip-файла? - PullRequest
0 голосов
/ 18 февраля 2019

* Это в Python 3.6 *

Можно ли прочитать документ Word из .zip-файла в Python без извлечения какого-либо содержимого?Если нет, то возможно ли исключительно извлечь указанный документ Word?

В настоящее время я пытаюсь выполнить следующее:

import docx2txt
import zipfile

archive = zipfile.ZipFile(dir_path, 'r')
text = archive.read(file_name)
docx2txt.process(text)

, что дает мне ошибку: 'bytes' object has no attribute 'seek'.Точно так же, когда печатный текст выглядит следующим образом:

b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x008\x9a\x1eJ\xbd\x01\x00\x00`\t\x00\x00\x13\x00\x08\x02[Content_Types].xml \xa2\x04\x02(\xa0\x00\x02\...

Я не знаю, что это такое, но попытка декодировать его стандартным способом также не работает:

text.decode(encoding="utf-8")

Это только дает мне: 'utf-8 codec can't decode byte 0x9a in position 15: invalid start byte.

В качестве альтернативы, если я пытаюсь декодировать его без docx2txt, это дает мне строку того, что можно было бы считать только бессмысленным:

import io

archive = zipfile.ZipFile(dir_path, 'r')
text = archive.open(file_name, 'r')
text = io.TextIOWrapper(text, encoding='iso-8859-1', newline='')
text = text.read()

В результате получается строка, содержащая набор символов:

5g²àðÁYÑ[¶ê©Ü2 Ê]pä²"E¯ÜeA+Ê}p i;p!Hå>8

Есть ли способ прочитать этот файл .docx, не разархивировав его?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...