Я работаю над проектом, который требует от меня автоматизации задачи извлечения данных из таблиц в pdf-файле. Я использую Python для этого проекта.
Мне интересно, есть ли лучший способ решить эту проблему.
Я уже использовал tabula, однако, если таблица не имеет четких сеток, tabula не работает должным образом.
Я думаю об использовании Open CV, чтобы нарисовать сетки вокруг таблиц и ячеек, а затем использовать OCR для извлечения данных из файлов.
Вот пример страницы в формате pdf, которую я пытаюсь извлечь из таблиц