Используйте Python -docx, чтобы прочитать документ Word, но некоторые тексты отсутствуют - PullRequest
1 голос
/ 06 мая 2020

Я использую пакет docx для чтения документа Word на китайском и английском языках sh, но при печати текста я обнаружил несколько слов в абзаце, а некоторые абзацы отсутствуют.

Например:

исходный текст: 这 是 个 好 天气 AA_BB_RRM_ CC

печатный текст: 这 是 个 好 天气 AA_BB __ CC

странно RRM часть отсутствует

кстати, отсутствующий абзац выглядит так же, как и другие

мой код следующий, есть ли у кого-нибудь такая же проблема?

file = docx.Document(filename)

for para in file.paragraphs:

    content = para.text

    print(content)
...