Выделите отрывок текста в PDF без возможности поиска - PullRequest
0 голосов
/ 13 мая 2018

Мне нужен ваш ввод, чтобы найти общий подход, чтобы найти отрывок текста в отсканированном изображении в формате PDF и выделить его.

При использовании функции распознавания текста из облака Google я просто получаю массив всехслова на изображении, включая положение.Поэтому я мог найти слово и выделить его, так как я могу найти слово и найти его положение.

Но как мне найти текстовый отрывок?

Я был бы счастливчтобы получить некоторые идеи от вас :)

Спасибо!

1 Ответ

0 голосов
/ 12 июля 2018

Я предполагаю, что с OCR вы имеете в виду Оптическое распознавание символов .

Я могу думать об этом надуманном решении (при условии, что у вас есть координаты x и y):

-Создание упорядоченного списка со всеми словами. Порядок должен выглядеть следующим образом *: word1> word2, если x1> x2 AND y1 = y2 (горизонтальный порядок) или если x1 = x2 AND y1> y2 (порядок строк).

-Найдите первое слово отрывка, проверьте, совпадает ли следующая запись в списке, и так далее. Более простым способом было бы найти первое и последнее слова, чтобы выделить каждое слово между ними, но это может создать совпадения, если слова общие.

Это должно работать, пока текст не очень наклонен. Если это так, вы должны рассчитать наклон и исправить его.

* РЕДАКТИРОВАТЬ: Может быть, проще, если вы сначала упорядочить строки, а затем слова После этого присоединяйтесь к спискам.

...