Как получить текст из нажатой зоны в элементе управления PDF? - PullRequest
0 голосов
/ 09 июля 2019

Я хочу создать приложение, которое загружает PDF в элемент управления PDF (эта часть проста, уже сделано.) Содержимое загруженного PDF-файла будет представлять собой конкретные рисунки с текстом под ними.

То, чего я хочу добиться, - это иметь возможность щелкнуть любой текст в этом PDF-файле и извлечь этот текст в некоторой переменной, чтобы я мог использовать его для поиска в базе данных с информацией об этом конкретном тексте.

Я не уверен, что некоторые элементы управления OCR могут выполнить «зональное OCR при нажатии», а затем сохранить этот текст в переменной. Текст всегда следует шаблону, подобному ABC-123.

Надеюсь, я правильно объяснил свои потребности, есть идеи о том, что я мог бы использовать для достижения этой цели? Я не прошу код, просто некоторые указания, чтобы начать расследование.

Пока что я только нашел несколько платных элементов управления OCR, и я не уверен, что они могут извлечь только текст из небольшой зоны, где я нажимаю на этот PDF-файл. Проблема в том, что текст не всегда находится в одном и том же месте в документе PDF.

Эта программа делает то, что я хочу, но я хочу это в моем приложении на C # или vb.net, не используя стороннее приложение.

http://aqua.deskperience.com/capturing/textcapture/capture-text-from-region

1 Ответ

0 голосов
/ 09 июля 2019

Вы можете отправить PDF или скриншот бесплатно ocr api .Возвращает координаты для каждого слова.Затем сопоставьте это с x / y щелчка мышью.

В качестве отправной точки вы можете использовать этот C # пример проекта OCR .

...