Я хочу создать приложение, которое загружает PDF в элемент управления PDF (эта часть проста, уже сделано.)
Содержимое загруженного PDF-файла будет представлять собой конкретные рисунки с текстом под ними.
То, чего я хочу добиться, - это иметь возможность щелкнуть любой текст в этом PDF-файле и извлечь этот текст в некоторой переменной, чтобы я мог использовать его для поиска в базе данных с информацией об этом конкретном тексте.
Я не уверен, что некоторые элементы управления OCR могут выполнить «зональное OCR при нажатии», а затем сохранить этот текст в переменной. Текст всегда следует шаблону, подобному ABC-123.
Надеюсь, я правильно объяснил свои потребности, есть идеи о том, что я мог бы использовать для достижения этой цели? Я не прошу код, просто некоторые указания, чтобы начать расследование.
Пока что я только нашел несколько платных элементов управления OCR, и я не уверен, что они могут извлечь только текст из небольшой зоны, где я нажимаю на этот PDF-файл. Проблема в том, что текст не всегда находится в одном и том же месте в документе PDF.
Эта программа делает то, что я хочу, но я хочу это в моем приложении на C # или vb.net, не используя стороннее приложение.
http://aqua.deskperience.com/capturing/textcapture/capture-text-from-region