Автоматически печатать в PDF и использовать OCR - python, Adobe acrobat - PullRequest
0 голосов
/ 14 ноября 2018

Извинения; Я новичок в этом и в моей голове.

Я на Windows 10, использую python 3.6 с Adobe Acrobat 10 и Ghostscript 9.25. Мне нужно извлечь текст из группы .pdf файлов, но pdfminer, textract и даже копирование не удалось - по моему вопросу здесь , похоже, проблема в том, что файлы имеют неправильные /ToUnicode карты. У меня есть решение, но я борюсь с его автоматизацией.

Мое решение:

  1. Экспортируйте файлы как .pdf, .jpg и т. Д., Чтобы избавиться от всего текста и чтобы файл обрабатывался как изображение
  2. Используйте встроенную функцию распознавания символов Adobe 10 для правильного распознавания символов
  3. Экспорт в .doc, .txt и т. Д.

Использование subprocess.call([acrobat, "/T", file]) (или win32api) Я могу вызвать принтер по умолчанию для файла (то есть «сохранить как pdf»), но мне нужно ввести имя файла вручную. Как указать имя файла при печати таким способом?

Затем я должен использовать оптическое распознавание Adobe для документа; что заставляет меня думать, что вызов будет выглядеть примерно так: subprocess.call(['/path/to/adobe.exe', 'use-OCR','filename.pdf']). В моей голове код будет выглядеть примерно так:

subprocess.call([acrobat, '/T', 'original.pdf', 'image.pdf',printer])
subprocess.call([acrobat,'use-OCR','image.pdf'])
subprocess.call([acrobat,'export-as','doc','image.pdf'])

subprocess.call кажется очень мощным, я смог сделать несколько замечательных вещей, используя его и LibreOffice для обработки .doc файлов; Я не знаю, как сделать какие-либо звонки на Acrobat, хотя. Многое из того, что я видел, включает в себя использование Ghostscript, которое я установил, но не знаю, как использовать его в этих случаях. Любая помощь - или альтернативное решение - приветствуется.

У меня есть образец .pdf загруженного файла здесь .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...