Я использую Solr для индексирования файлов DOC, DOCX и PDF. Я включил сохраненный для текста и проверил его. Вот результат из образца файла DOC:
, компания по разработке программного обеспечения mobile user interface (UI), расположенная в Кембридже,
СОЕДИНЕННОЕ КОРОЛЕВСТВО. После интеграции компании Qualcomm провела ребрендинг своего интерфейса.
язык разметки и сопутствующее ему комплексное развитие
среда (IDE) как HYPERLINK
"http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1"
* \ o "UiOne (страница не существует)" uiOne **. В марте 2009 года Qualcomm
проинформировали своих инженеров из Кембриджа, в основном из отдела
работает над HYPERLINK "http://en.wikipedia.org
Документ содержит материалы из Википедии. Я захватил полный вывод на http://pastebin.com/8FL9eHJv
Итак, Solr CEl / Tika вставляет свое собственное форматирование, и результаты форматирования отображаются в результатах поиска . Как устранить проблему, чтобы результаты поиска (фрагменты текста) не содержали форматирование?
Поиск в Google говорит мне, что у TIKA есть несколько форматов вывода, так это подход? Или есть плагин, который может фильтровать текст перед отображением результатов?
Соответствующие сведения : Моя конфигурация близко к складу :
Моя команда загрузки представляет собой вариант Python
локон
«http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true"
-F "myfile=@11qualcomm.doc"
Моя схема.xml http://pastebin.com/VLz2uuDQ
Мой SolrConfig.xml http://pastebin.com/X2J2jj64