Получение китайского текста из PDF, проблема с кодировкой шрифта - PullRequest
0 голосов
/ 13 ноября 2018

Я использую python 3 на windows 10 (хотя OS X также доступна). Я пытаюсь извлечь текст из множества файлов .pdf, все на китайских иероглифах. Я имел успех с pdfminer и textract, за исключением определенных файлов. Эти файлы не являются изображениями, а представляют собой надлежащие документы с выбираемым текстом. Если я использую Adobe Acrobat Pro X и экспортирую в .txt, мой вывод будет выглядеть так:

!! 
F/.....e..................! 
216.. ..... .... .... 
........   

Если я вывожу на .doc, .docx, .rtf или даже копирую и вставляю в любой текстовый редактор, это выглядит так:

ҁϦљӢख़ε༊౗ݢ୏ቹៜϐѦჾѱ൑॥ᓀϩ݋ӵΠ

Я понятия не имею, почему Adobe будет отображать текст должным образом, но не будет правильно экспортировать его или даже разрешить мне копировать-вставить. Я подумал, что это может быть проблема со шрифтом, шрифт DFKaiShu sb-estd-bf, который я уже установил (кажется, он автоматически поставляется с Windows).

У меня есть обходной путь, но это некрасиво и очень сложно автоматизировать; Я печатаю PDF-файл в PDF-файл (или любое другое изображение), затем использую встроенное распознавание в Adobe Pro, а затем преобразую в текстовый документ (он по-прежнему не конвертируется правильно в .txt). В конечном итоге мне нужно сделать это для ~ 2000 документов, каждый из которых может содержать до 200 страниц.

Есть ли другой способ сделать это? Почему экспорт или копирование не работает правильно? Я загрузил 2-страничный образец в Google Drive здесь .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...