Как извлечь текст из файла DOCX и сохранить в текстовом файле - PullRequest
0 голосов
/ 17 января 2019

Я пытался прочитать файл .docx и скопировать его текст в файл .txt

Я начал с написания этого скрипта для достижения вышеуказанных результатов.

if extension == 'docx' :

   document = Document(filepath)
      for para in document.paragraphs:
         with open("C:/Users/prasu/Desktop/PySumm-resource/CodeSamples/output.txt","w") as file:
            file.writelines(para.text)

Произошла ошибка:

Traceback (most recent call last):
  File "input_script.py", line 27, in <module>
    file.writelines(para.text)
  File "C:\Python\lib\encodings\cp1252.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u2265' in 
position 0: character maps to <undefined>

Я попытался напечатать "para.text" с помощью print (), все работает. Теперь я хочу написать «para.text» в файл .txt.

...