Я работаю с SOLR над проектом, в который мы импортируем кучу (~ 40 тыс. Элементов) богатых документов, в основном MS Word, Powerpoint, Excel и PDF.
Есть ли лучшая практика schema.xml
и / или solrconfig.xml
для использования в SOLR при использовании ExtractingRequestHandler
?
Я делал изменения в схеме по умолчанию, чтобы попытаться заставить фасеты работать со временем модификации даты, но даже без этого я думаю, что вполне может существовать хороший пример того, как эти файлы должны быть при выводе по умолчанию из Tika достаточно.
Если нет такой вещи, как передовой опыт schema.xml
и / или solrconfig.xml
, я также заинтересован в хороших примерах, желательно из существующих проектов с открытым исходным кодом или даже в хороших сообщениях в блоге.
Любые указатели приветствуются!