Как извлечь (проанализировать) данные таблицы организованным способом в python с помощью Apache Tika и / или Tesseract? - PullRequest
0 голосов
/ 18 ноября 2018

Я пытаюсь разобрать документы для извлечения текста, используя tika и pytesseract в python.Хотя я могу анализировать нормальные текстовые разделы, я сталкиваюсь с проблемами с таблицами.Хотя тика разбирает тексты в таблице, содержимое перемешано.Можно ли извлечь информацию из таблиц осмысленным образом? Например, из этой таблицы

...