Мое приложение позволяет пользователю загружать файлы PDF и сохранять их на веб-сервере для последующего просмотра. Я храню имя файла, местоположение, размер, дату загрузки, имя пользователя и т. Д. В базе данных сервера SQL.
Я бы хотел иметь возможность программно, сразу после загрузки файла, создать список ключевых слов (может быть, все, кроме обычных слов) и сохранить их в базе данных sql, чтобы последующие пользователи могли выполнять поиск по ключевым словам. ..
Предложения о том, как подойти к этой задаче? Этот тип рутины уже существует?
РЕДАКТИРОВАТЬ: просто чтобы уточнить мои требования, я не буду беспокоиться о OCR, я не знаю внутренности PDF, но я понимаю, что если он был создан приложением, таким как Word-> PDF Распечатать, текст документа доступен для поиска ... так что на самом деле моя первая задача, и цель моего вопроса в том, как мне получить доступ к тексту файла PDF из приложения asp.net? На данный момент распознавание отсканированных PDF-файлов, вероятно, выходит за рамки моих требований.