Я извлек весь текст из PDF и сохранил в переменной "CCR". Я могу напечатать, и это показывает мне текст в порядке. Но когда я пытаюсь прочитать его строки или сохранить в текстовом файле, он просто показывает мне / сохранить пустым / ничего. Есть идеи?
Пример, когда я печатаю свою переменную (работает нормально):
«Глава 9 - Цифровое преобразование»
Я использую тика-сервер для извлечения текста.
txt_CCR = open(r"C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt", "w")
txt_CCR.write(CCR)
txt_CCR.close()
Это дает мне эту ошибку, когда я пытаюсь записать в файл:
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-23-94a2126671fc> in <module>()
1 txt_CCR = open(r'C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt', 'w')
----> 2 txt_CCR.write(CCR)
3 txt_CCR.close()
~\Anaconda3\lib\encodings\cp1252.py in encode(self, input, final)
17 class IncrementalEncoder(codecs.IncrementalEncoder):
18 def encode(self, input, final=False):
---> 19 return codecs.charmap_encode(input,self.errors,encoding_table)[0]
20
21 class IncrementalDecoder(codecs.IncrementalDecoder):
UnicodeEncodeError: 'charmap' codec can't encode character '\uf0b7' in position 95944: character maps to <undefined>