Поиск файлов PDF, хранящихся в базе данных, с использованием SOLR - PullRequest
0 голосов
/ 02 мая 2019

У меня много файлов PDF, хранящихся в базе данных (MSSQL), которые мне нужно искать. Они хранятся как BLOB. Мне нужно пройтись по тому, как искать их с помощью SOLR. У меня есть БД, давайте назовем ее «Фред». Внутри Фреда есть стол, назовем его pdffiles. В pdffiles есть столбец с именем pdfdata типа BLOB. PDF-файлы хранятся в этой таблице, а двоичные данные хранятся в столбце. Какие шаги мне предпринять, чтобы получить SOLR для извлечения этих данных и их индексации? Я предполагаю, что это включает в себя TikaEntityProcessor, но хранение PDF в базе данных, а не просто обычные файлы добавляет уровень сложности. Ранее я работал с SOLR, и он запущен в производство. Образцы файлов dataconfig и схемы будут очень полезны.

1 Ответ

0 голосов
/ 03 мая 2019

Какие шаги мне предпринять, чтобы получить SOLR для извлечения этих данных и их индексации?

  1. создайте новый файл с именем tika-data-config.xml, который будет иметь конфигурации базы данных и запрос для получения данных.

  2. Вам необходимо обновить solrconfig.xml в текстовом редакторе и добавить следующее в теги config:

enter image description here

  1. Вы должны упомянуть библиотеки, связанные с обработчиком импорта данных.
  2. Укажите соответствующий файл jar базы данных.
  3. Внесите изменения в файл schema.xml, указав свое поле. Добавьте правильный fieldType для вашего поля в зависимости от ваших поисковых запросов.
  4. Как только установка будет готова, вы можете запросить solr для индексации используя http://localhost:8983/solr/collection1/dataimport?command=full-import

Пожалуйста, обратитесь к ссылке на Solr для более подробной информации ... Настройка DIH

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...