* Это в Python 3.6 *
Можно ли прочитать документ Word из .zip-файла в Python без извлечения какого-либо содержимого?Если нет, то возможно ли исключительно извлечь указанный документ Word?
В настоящее время я пытаюсь выполнить следующее:
import docx2txt
import zipfile
archive = zipfile.ZipFile(dir_path, 'r')
text = archive.read(file_name)
docx2txt.process(text)
, что дает мне ошибку: 'bytes' object has no attribute 'seek'
.Точно так же, когда печатный текст выглядит следующим образом:
b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x008\x9a\x1eJ\xbd\x01\x00\x00`\t\x00\x00\x13\x00\x08\x02[Content_Types].xml \xa2\x04\x02(\xa0\x00\x02\...
Я не знаю, что это такое, но попытка декодировать его стандартным способом также не работает:
text.decode(encoding="utf-8")
Это только дает мне: 'utf-8 codec can't decode byte 0x9a in position 15: invalid start byte
.
В качестве альтернативы, если я пытаюсь декодировать его без docx2txt
, это дает мне строку того, что можно было бы считать только бессмысленным:
import io
archive = zipfile.ZipFile(dir_path, 'r')
text = archive.open(file_name, 'r')
text = io.TextIOWrapper(text, encoding='iso-8859-1', newline='')
text = text.read()
В результате получается строка, содержащая набор символов:
5g²àðÁYÑ[¶ê©Ü2 Ê]pä²"E¯ÜeA+Ê}p i;p!Hå>8
Есть ли способ прочитать этот файл .docx, не разархивировав его?