У меня много файлов PDF, хранящихся в базе данных (MSSQL), которые мне нужно искать. Они хранятся как BLOB. Мне нужно пройтись по тому, как искать их с помощью SOLR.
У меня есть БД, давайте назовем ее «Фред». Внутри Фреда есть стол, назовем его pdffiles. В pdffiles есть столбец с именем pdfdata типа BLOB.
PDF-файлы хранятся в этой таблице, а двоичные данные хранятся в столбце. Какие шаги мне предпринять, чтобы получить SOLR для извлечения этих данных и их индексации?
Я предполагаю, что это включает в себя TikaEntityProcessor, но хранение PDF в базе данных, а не просто обычные файлы добавляет уровень сложности. Ранее я работал с SOLR, и он запущен в производство.
Образцы файлов dataconfig и схемы будут очень полезны.