В настоящее время мы сохраняем файлы (PDF, DOC) в базе данных как поля BLOB. Я хотел бы иметь возможность получить необработанный текст файла, чтобы иметь возможность манипулировать им для выделения совпадений и других функций.
Кто-нибудь знает простой способ разбора файлов и сохранения необработанного текста при сохранении с помощью кода SQL или .net? Я обнаружил, что у Adobe есть утилита фильтрования, которая преобразует PDF в текст. Filtdump кажется инструментом командной строки, и я не вижу способа использовать файловый поток. И каким будет экстрактор для документов Office и других типов файлов?
-или-
Есть ли способ извлечь необработанный текст из полнотекстового индекса SQL без использования сторонних фильтров?
Обратите внимание, что я пытаюсь создать решение .net & MSSql без необходимости использования стороннего инструмента, такого как Lucene