Извинения; Я новичок в этом и в моей голове.
Я на Windows 10
, использую python 3.6
с Adobe Acrobat 10
и Ghostscript 9.25
. Мне нужно извлечь текст из группы .pdf
файлов, но pdfminer
, textract
и даже копирование не удалось - по моему вопросу здесь , похоже, проблема в том, что файлы имеют неправильные /ToUnicode
карты. У меня есть решение, но я борюсь с его автоматизацией.
Мое решение:
- Экспортируйте файлы как
.pdf
, .jpg
и т. Д., Чтобы избавиться от всего текста и чтобы файл обрабатывался как изображение
- Используйте встроенную функцию распознавания символов Adobe 10 для правильного распознавания символов
- Экспорт в
.doc
, .txt
и т. Д.
Использование subprocess.call([acrobat, "/T", file])
(или win32api
) Я могу вызвать принтер по умолчанию для файла (то есть «сохранить как pdf»), но мне нужно ввести имя файла вручную. Как указать имя файла при печати таким способом?
Затем я должен использовать оптическое распознавание Adobe для документа; что заставляет меня думать, что вызов будет выглядеть примерно так: subprocess.call(['/path/to/adobe.exe', 'use-OCR','filename.pdf'])
. В моей голове код будет выглядеть примерно так:
subprocess.call([acrobat, '/T', 'original.pdf', 'image.pdf',printer])
subprocess.call([acrobat,'use-OCR','image.pdf'])
subprocess.call([acrobat,'export-as','doc','image.pdf'])
subprocess.call
кажется очень мощным, я смог сделать несколько замечательных вещей, используя его и LibreOffice
для обработки .doc
файлов; Я не знаю, как сделать какие-либо звонки на Acrobat
, хотя. Многое из того, что я видел, включает в себя использование Ghostscript
, которое я установил, но не знаю, как использовать его в этих случаях. Любая помощь - или альтернативное решение - приветствуется.
У меня есть образец .pdf
загруженного файла здесь .