Не могу написать / прочитать текст строки, извлеченный из PDF - PullRequest
0 голосов
/ 29 мая 2019

Я извлек весь текст из PDF и сохранил в переменной "CCR". Я могу напечатать, и это показывает мне текст в порядке. Но когда я пытаюсь прочитать его строки или сохранить в текстовом файле, он просто показывает мне / сохранить пустым / ничего. Есть идеи?

Пример, когда я печатаю свою переменную (работает нормально):

«Глава 9 - Цифровое преобразование»

Я использую тика-сервер для извлечения текста.

txt_CCR = open(r"C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt", "w")

txt_CCR.write(CCR)
txt_CCR.close()

Это дает мне эту ошибку, когда я пытаюсь записать в файл:

UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-23-94a2126671fc> in <module>()
      1 txt_CCR = open(r'C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt', 'w')
----> 2 txt_CCR.write(CCR)
      3 txt_CCR.close()

~\Anaconda3\lib\encodings\cp1252.py in encode(self, input, final)
     17 class IncrementalEncoder(codecs.IncrementalEncoder):
     18     def encode(self, input, final=False):
---> 19         return codecs.charmap_encode(input,self.errors,encoding_table)[0]
     20 
     21 class IncrementalDecoder(codecs.IncrementalDecoder):

UnicodeEncodeError: 'charmap' codec can't encode character '\uf0b7' in position 95944: character maps to <undefined>
...