Что такое форматирование вывода Solr CEL / Tika? И как это исправить? - PullRequest
4 голосов
/ 20 июля 2011

Я использую Solr для индексирования файлов DOC, DOCX и PDF. Я включил сохраненный для текста и проверил его. Вот результат из образца файла DOC:

, компания по разработке программного обеспечения mobile user interface (UI), расположенная в Кембридже, СОЕДИНЕННОЕ КОРОЛЕВСТВО. После интеграции компании Qualcomm провела ребрендинг своего интерфейса. язык разметки и сопутствующее ему комплексное развитие среда (IDE) как HYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1" * \ o "UiOne (страница не существует)" uiOne **. В марте 2009 года Qualcomm проинформировали своих инженеров из Кембриджа, в основном из отдела работает над HYPERLINK "http://en.wikipedia.org

Документ содержит материалы из Википедии. Я захватил полный вывод на http://pastebin.com/8FL9eHJv

Итак, Solr CEl / Tika вставляет свое собственное форматирование, и результаты форматирования отображаются в результатах поиска . Как устранить проблему, чтобы результаты поиска (фрагменты текста) не содержали форматирование?

Поиск в Google говорит мне, что у TIKA есть несколько форматов вывода, так это подход? Или есть плагин, который может фильтровать текст перед отображением результатов?

Соответствующие сведения : Моя конфигурация близко к складу : Моя команда загрузки представляет собой вариант Python

локон «http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"

Моя схема.xml http://pastebin.com/VLz2uuDQ

Мой SolrConfig.xml http://pastebin.com/X2J2jj64

1 Ответ

0 голосов
/ 06 июня 2012

Вы спрашиваете о дополнительных элементах гиперссылки в результатах поиска. Если да, попробуйте обновить дескриптор запроса на извлечение в вашем файле solrconfig.xml до

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>
...