У меня есть 30 различных типов PDF-файлов. Мне нужно извлечь информацию, специфичную для каждого PDF. Мне нужно сделать это в Python желательно. Я могу извлечь конкретную информацию из одного типа PDF, но мне нужна модель, которая распознает тип документа и автоматически определяет ключевые слова, которые необходимо извлечь, а затем получить их. Возможно ли программно использовать Python? Любая помощь будет оценена.
Обратите внимание, что не все документы структурированы. Но для начала можно предположить, что документ структурирован.
Я пробовал OpenCV для извлечения текста из отсканированных изображений, но это дает мне ужасные результаты. Я преобразовал все изображения в текст, но это не то, что я ищу. Я просто ищу конкретную информацию из каждого из PDF-файлов.