Question

У меня много файлов PDF, хранящихся в базе данных (MSSQL), которые мне нужно искать. Они хранятся как BLOB. Мне нужно пройтись по тому, как искать их с помощью SOLR. У меня есть БД, давайте назовем ее «Фред». Внутри Фреда есть стол, назовем его pdffiles. В pdffiles есть столбец с именем pdfdata типа BLOB. PDF-файлы хранятся в этой таблице, а двоичные данные хранятся в столбце. Какие шаги мне предпринять, чтобы получить SOLR для извлечения этих данных и их индексации? Я предполагаю, что это включает в себя TikaEntityProcessor, но хранение PDF в базе данных, а не просто обычные файлы добавляет уровень сложности. Ранее я работал с SOLR, и он запущен в производство. Образцы файлов dataconfig и схемы будут очень полезны.

Abhijit Bashetti · Answer 1 · 03 мая 2019

Какие шаги мне предпринять, чтобы получить SOLR для извлечения этих данных и их индексации?

создайте новый файл с именем tika-data-config.xml, который будет иметь конфигурации базы данных и запрос для получения данных.
Вам необходимо обновить solrconfig.xml в текстовом редакторе и добавить следующее в теги config:

Вы должны упомянуть библиотеки, связанные с обработчиком импорта данных.
Укажите соответствующий файл jar базы данных.
Внесите изменения в файл schema.xml, указав свое поле. Добавьте правильный fieldType для вашего поля в зависимости от ваших поисковых запросов.
Как только установка будет готова, вы можете запросить solr для индексации используя http://localhost:8983/solr/collection1/dataimport?command=full-import

Пожалуйста, обратитесь к ссылке на Solr для более подробной информации ... Настройка DIH

Поиск файлов PDF, хранящихся в базе данных, с использованием SOLR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск файлов PDF, хранящихся в базе данных, с использованием SOLR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов