Question

Я работаю над проектом, который требует от меня автоматизации задачи извлечения данных из таблиц в pdf-файле. Я использую Python для этого проекта.

Мне интересно, есть ли лучший способ решить эту проблему.

Я уже использовал tabula, однако, если таблица не имеет четких сеток, tabula не работает должным образом.

Я думаю об использовании Open CV, чтобы нарисовать сетки вокруг таблиц и ячеек, а затем использовать OCR для извлечения данных из файлов.

Вот пример страницы в формате pdf, которую я пытаюсь извлечь из таблиц

<img src="https://i.stack.imgur.com/qs9am.png">

Nataliya Zhovannik · Answer 1 · 17 июня 2019

Как я заметил, вы имеете дело с цифровыми PDF-файлами (не отсканированными).Если вы все еще хотели бы изучить некоторые возможности решения вашей проблемы без использования оптического распознавания символов, вот вы:

Camelot - средство извлечения табличных данных .Эта библиотека хороша для работы с «плохими» таблицами без четких сеток.
Вы также можете рассмотреть возможность преобразования вашего PDF в текст с помощью pdftotext , а затем проанализировать его с помощью Python.

Какими способами можно извлечь таблицы без какой-либо сетки из PDF-файлов в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какими способами можно извлечь таблицы без какой-либо сетки из PDF-файлов в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы