Автоматизированная программа OCR или готовый инструмент для сканирования PDF-файлов / изображений и вывода в документы Excel - PullRequest
0 голосов
/ 21 декабря 2018

Я новичок в программировании и недавно начал гораздо серьезнее изучать Python.Тем не менее, я выполнил несколько проектов, которые требовали программирования в моей компании, поэтому у меня есть некоторые сведения о том, как это работает (или как обыскивать Интернет! Lol).Однако недавно у нас был клиент, который отправляет нам счета в форматах PDF, и мы хотели бы автоматизировать все счета для компиляции в один файл .csv.

Я собирал несколько кодов OCR (янедавно запустил свой первый вывод изображения в текст), однако я не думаю, что на 100% способен создать такую ​​автоматизацию, поскольку я все еще очень новичок в программировании.Это потребует как минимум нескольких недель, и я не уверен, стоит ли это того, чтобы мы могли просто попросить клиента настроить более точную электронную таблицу Excel для отправки каждый раз.

Вот почему я 'Я обращаюсь к уже доступному инструменту OCR.Недавно я нашел этот драгоценный камень: https://www.pdftoexcel.com/, однако это очень ручной процесс, и он не настолько автоматизирован, как хотелось бы.Если есть способ запрограммировать сценарий на загрузку доступного файла PDF из определенной папки, чтобы загрузить его на веб-сайт и экспортировать его в файл Excel каждый раз, когда мы получаем счет-фактуру, можно ли поделиться?

Также было бы большим плюсом, если бы был способ загрузить пакет счетов и определить различные расходы, предоставляя сводку по отсканированным счетам, особенно в категориях

Я надеюсь, что яспрашиваю имеет смысл.Дайте мне знать, если вам потребуются дополнительные разъяснения.

Приветствия

1 Ответ

0 голосов
/ 21 декабря 2018

Есть много вещей, доступных для Python, если у вас есть быстрый поиск в Google или StackOverflow.Я полагаю, что в прошлом я использовал оптическое распознавание текста в Tesseract.

По моему опыту, вы получите исправное оптическое распознавание текста с некоторыми из популярных библиотек Python, но за отличную вещь придет ценник.

Попробуйте некоторые тесты с вашими счетами в формате PDF, но если вы получаете даже немного сомнительные результаты, вам, возможно, придется рассмотреть более дорогие альтернативы (или даже отдельное оборудование!).

Если клиент отправляет вам четкие, красиво отформатированныеPDF-файлы с хорошим шрифтом, я не понимаю, почему бесплатных библиотек Python будет недостаточно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...