Извлечение ключевых полей данных из PDF-файлов / отсканированных PDF-файлов с помощью машинного обучения или программным способом для 30 различных типов документов - PullRequest
0 голосов
/ 29 июня 2018

У меня есть 30 различных типов PDF-файлов. Мне нужно извлечь информацию, специфичную для каждого PDF. Мне нужно сделать это в Python желательно. Я могу извлечь конкретную информацию из одного типа PDF, но мне нужна модель, которая распознает тип документа и автоматически определяет ключевые слова, которые необходимо извлечь, а затем получить их. Возможно ли программно использовать Python? Любая помощь будет оценена. Обратите внимание, что не все документы структурированы. Но для начала можно предположить, что документ структурирован.

Я пробовал OpenCV для извлечения текста из отсканированных изображений, но это дает мне ужасные результаты. Я преобразовал все изображения в текст, но это не то, что я ищу. Я просто ищу конкретную информацию из каждого из PDF-файлов.

1 Ответ

0 голосов
/ 29 июня 2018

Вам нужны две вещи.

Для ключевых слов вы можете использовать tf-idf Для извлечения темы вы можете использовать классификацию документов

...