Я не могу понять, почему слово «Делавэр» не извлекается из кода ниже. Любой другой персонаж извлекается. Кто-нибудь может предоставить код, который извлекает слово «Делавэр» из файла Docx ниже, без изменения файла вручную?
Введите:
import docx
import io
import requests
url = 'https://github.com/python-openxml/python-docx/files/1996979/Delaware_Test.docx'
file = io.BytesIO(requests.get(url).content)
for text in docx.Document(file).paragraphs:
print(text.text)
Выход:
ПРИМЕНИМОЕ ЗАКОНОДАТЕЛЬСТВО
Настоящее Соглашение подлежит толкованию и толкованию в соответствии с законодательством государства, за исключением его коллизионных норм. Положения Конвенции США о договорах международной купли-продажи товаров не применяются к настоящему Соглашению.
Самое странное в этом то, что если я сделаю что-нибудь со словом «Делавэр» (например, полужирный / полужирный, наберите слово) в документе, а затем сохраню его, слово «Делавэр» будет больше не хватает в следующий раз, когда я запускаю код. Однако простое сохранение файла без изменения слова не решает проблему. Вы можете сказать, что решение состоит в том, чтобы вручную изменить слово, но на самом деле я имею дело с тысячами этих документов, и нет смысла вручную изменять каждый документ по одному.
Ответ на Отсутствует текст документа при использовании python-docx , по-видимому, объясняет, почему этот «Делавэр» не может быть извлечен, но он не предоставляет решения. Спасибо.