Существует ли передовая практика schema.xml для SOLR при импорте форматированных документов? - PullRequest
5 голосов
/ 06 декабря 2011

Я работаю с SOLR над проектом, в который мы импортируем кучу (~ 40 тыс. Элементов) богатых документов, в основном MS Word, Powerpoint, Excel и PDF.

Есть ли лучшая практика schema.xml и / или solrconfig.xml для использования в SOLR при использовании ExtractingRequestHandler?

Я делал изменения в схеме по умолчанию, чтобы попытаться заставить фасеты работать со временем модификации даты, но даже без этого я думаю, что вполне может существовать хороший пример того, как эти файлы должны быть при выводе по умолчанию из Tika достаточно.

Если нет такой вещи, как передовой опыт schema.xml и / или solrconfig.xml, я также заинтересован в хороших примерах, желательно из существующих проектов с открытым исходным кодом или даже в хороших сообщениях в блоге.

Любые указатели приветствуются!

1 Ответ

0 голосов
/ 09 декабря 2011

В книгах Укрощение текста (http://www.manning.com/ingersoll/) у вас есть некоторые ссылки на ExtractingRequestHandler. Эта книга посвящена обработке текста с использованием инструментов с открытым исходным кодом, таких как solr, tika или lucene.

Я читал до главы 5, и до сих пор книга объясняет, как расширяет функциональность solr, изменяя файл schema.xml для создания полей различных типов и обрабатывая запросы или индексируя.

...