Я использую python 3
на windows 10
(хотя OS X также доступна). Я пытаюсь извлечь текст из множества файлов .pdf, все на китайских иероглифах. Я имел успех с pdfminer
и textract
, за исключением определенных файлов. Эти файлы не являются изображениями, а представляют собой надлежащие документы с выбираемым текстом. Если я использую Adobe Acrobat Pro X
и экспортирую в .txt
, мой вывод будет выглядеть так:
!!
F/.....e..................!
216.. ..... .... ....
........
Если я вывожу на .doc
, .docx
, .rtf
или даже копирую и вставляю в любой текстовый редактор, это выглядит так:
ҁϦљӢख़ε༊ݢቹៜϐѦჾѱ॥ᓀϩӵΠ
Я понятия не имею, почему Adobe будет отображать текст должным образом, но не будет правильно экспортировать его или даже разрешить мне копировать-вставить. Я подумал, что это может быть проблема со шрифтом, шрифт DFKaiShu sb-estd-bf
, который я уже установил (кажется, он автоматически поставляется с Windows).
У меня есть обходной путь, но это некрасиво и очень сложно автоматизировать; Я печатаю PDF-файл в PDF-файл (или любое другое изображение), затем использую встроенное распознавание в Adobe Pro, а затем преобразую в текстовый документ (он по-прежнему не конвертируется правильно в .txt). В конечном итоге мне нужно сделать это для ~ 2000 документов, каждый из которых может содержать до 200 страниц.
Есть ли другой способ сделать это? Почему экспорт или копирование не работает правильно? Я загрузил 2-страничный образец в Google Drive здесь .