Есть ли способ обнаружить таблицу с помощью pytesseract - PullRequest
0 голосов
/ 07 марта 2019

Я попытался извлечь данные таблицы из изображения и вставить в CSV. Пользуюсь тессерактом

Может кто-нибудь сказать мне, как определить данные таблицы из изображения

У меня есть это изображение:

enter image description here

1 Ответ

0 голосов
/ 07 марта 2019

Проверьте эту библиотеку с открытым исходным кодом. https://github.com/jsvine/pdfplumber. Это показало хорошие результаты при извлечении данных таблицы.Вы получите тексты в таблице в виде списка списков, что очень полезно.Кроме того, вы можете получить координаты ячеек, которые также обеспечивают условия для любой последующей обработки.

Один недостаток заключается в том, что он работает только для цифровых PDF-файлов.

...