Я пытаюсь разобрать информацию о компоновке из механизмов OCR с PHP, за исключением того, что они не дают никаких подробностей.
У меня установлены и Tesseract (с Leptonica), и Cuneiform. Предположительно, Cuneiform отлично распознает макет (то есть, что такое текст, что такое изображение и т. Д.). Входные данные - это файлы PNG с текстом и изображениями (очевидно, текст является частью изображения.)
Кажется, все они думают, что я хочу вывод в виде txt, html или hocr ... когда мне нужны координаты того, что он считает текстом, а то, что он считает изображением.
У Cuneiform есть «нативная» опция вывода в формате Cuneiform 2000, открывающая его в Notepad ++. Я вижу, что он сжат. Я попытался извлечь его с помощью zip и gzip, но ни один из них не узнал. В Google нет информации о родном формате Cuneiform.
У кого-нибудь есть идеи, как извлечь информацию о разметке из Tesseract или Cuneiform ... или есть идеи получше, чтобы выяснить расположение изображений, содержащих текстовые блоки и картинки?