Не уверен, что это точно отвечает на ваш вопрос, но я приземлился здесь в поисках способов получить информацию о bbox-координатах (и текст, опционально распознанный внутри bbox), учитывая входное изображение.Решение, которое теперь возможно с использованием tesseract.
$> tesseract test.tiff test.txt -l eng -psm 1 tsv
В приведенном выше фрагменте кода следует отметить следующие параметры: «psm» и «tsv».«psm» выбирает режим сегментации страницы, а «tsv» генерирует хороший табличный выходной файл со всей информацией (номер строки блока страницы, bbox coods, достоверность, прогнозируемый текст), необходимой для вашего текстового изображения (показано ниже)
level page_num block_num par_num line_num word_num left top width height conf text
1 1 0 0 0 0 0 0 5500 4250 -1
2 1 1 0 0 0 327 285 2218 53 -1
3 1 1 1 0 0 327 285 2218 53 -1
4 1 1 1 1 0 327 285 2218 53 -1
5 1 1 1 1 1 327 285 246 38 87 INFOPAC
5 1 1 1 1 2 620 287 165 38 87 PAGE
5 1 1 1 1 3 952 290 100 37 95 NAME
5 1 1 1 1 4 1173 292 1082 45 39 ENTRYDATE
5 1 1 1 1 5 2333 302 212 36 48 EMAIL