Есть ли эффективный алгоритм / метод для извлечения таблиц из основанных на изображениях документов.У нас также есть вывод Abbyy OCR в виде XML, который имеет информацию о координатах текста в документе.Нам нужно решить 2 основные проблемы:
- Идентификация таблицы в документе.(Структура таблицы не является фиксированной. Может иметь разные макеты с ограничительными линиями или без них)
- Извлечение текста из таблиц.