Как данные в формате xlsx должны быть проиндексированы в Solr? - PullRequest
0 голосов
/ 18 сентября 2018

Мне было поручено загрузить некоторые данные в Solr, после чего они будут использованы для анализа.

Я понимаю, что Solr может индексировать данные в форматах файлов xlsx.

В Упражнении 2 для Solr были проиндексированы следующие файлы в порядке json, xml и csv:

bin/post -c films example/films/films.json

bin/post -c films example/films/films.xml

bin/post -c films example/films/films.csv -params "f.genre.split=true&f.directed_by.split=true&f.genre.separator=|&f.directed_by.separator=|"

Проблема, с которой я столкнулся, заключается в том, что, хотя я проиндексировал свой файл xlsx, он показывает только одну запись в запросе, что означает, что файл мог быть проиндексирован неверно, т. Е. Могут потребоваться такие параметры, как тот, который требуется для файла csv , Может кто-нибудь сказать мне, как это индексирование может быть сделано без необходимости конвертировать файл xlsx в файл CSV?

1 Ответ

0 голосов
/ 18 сентября 2018

Вы можете использовать Apacha Tika для индексации этих форматов в SOLR.Он проанализирует данные и сделает индекс.

Ссылка: https://lucidworks.com/2009/09/02/content-extraction-with-tika/

...