Автоматизируйте извлечение текста, используя python - PullRequest
0 голосов
/ 04 мая 2020

У меня есть куча документов в Excel, PDF, DOCX, и все они имеют разные формы / макеты. Я хочу автоматизировать запись этих документов в базу данных.

Я только что прочитал их в pandas и обработал их вручную. ПРОБЛЕМА даже в файлах Excel имеют разные формы и темы, такие как балансы, отчеты о доходах, с разнородными фреймами данных. pdf может быть выписками из банковского счета, заявками, счетами и т. д. c.

Как лучше всего go об этом использовать python?

1 Ответ

0 голосов
/ 04 мая 2020

Поскольку типы документов различаются, вы можете использовать различные способы обработки каждого типа документов.

  1. Документы Excel: Вы можете читать листы Excel в данные pandas кадр, а затем сбросить записи в базу данных с помощью простых запросов к базе данных. Эта ссылка должна быть полезна для этой цели.

  2. Документы PDF: Существует довольно много утилит для извлечения текста из документов PDF. PyPDF и pdfminer - это две библиотеки, которые должны помочь вам извлечь текст из документов PDF.

  3. Документы с изображениями: Вы можете использовать библиотеку pytesseract для извлечения текста из изображений.

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...