Jackrabbit устарел атрибут SearchIndex textFilterClasses - PullRequest
2 голосов
/ 21 января 2012

Я настраиваю Jackrabbit 2.3.6 и мне нужно проиндексировать двоичные файлы (PDF, ODT).Поэтому я настроил SearchIndex в repository.xml в соответствии с http://wiki.apache.org/jackrabbit/Search. Но когда я вставляю файл в репозиторий и пытаюсь выполнить полнотекстовый поиск, результаты не возвращаются.

Тогда я заметил предупреждениев журналах:

SearchIndex.java:2087 The textFilterClasses configuration parameter has been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor

Как мне настроить SearchIndex для индексации двоичных данных?Сейчас я делаю это так, что устарело и не работает в соответствии с вышеупомянутым предупреждением:

<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex">
    <param name="path" value="${rep.home}/repository/index"/>
    <param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/>
    <param name="supportHighlighting" value="true"/>
</SearchIndex>

Спасибо за ответы.

Ответы [ 2 ]

1 голос
/ 12 апреля 2012

Это ответ на аналогичный вопрос от Марка Хермана из списка рассылки Jackrabbit Users:

Я не эксперт, но я знаю, что JR использует Tika для извлечения текста, и это определяеткак на основе свойства jcr: mimeType.Если вы не предоставите mimetype, он не будет знать, как извлечь его (хотя я бы не рекомендовал это в качестве практики).Я считаю, что есть способ снабдить JR конфигурацией Tika, которая может дать вам то, что вы хотите. РЕДАКТИРОВАТЬ: Нет.Он жестко запрограммирован.

Кроме того, вы можете указать конфигурацию индексации в файлах XML репозитория / рабочей области, в которой вы можете установить некоторые правила в отношении того, что индексируется и как выполняется в lucene.

0 голосов
/ 26 июня 2015

Вам не нужно ничего делать, чтобы включить разбор Тики. Пока вы добавляете свойство mimetype, оно будет автоматически анализировать и индексировать содержимое документа (если формат поддерживается определенной версией Tika, в которой он включен).

Надеюсь, это кому-нибудь поможет. Документация на крольчонка очень скудна. Тот факт, что Apache Oak, похоже, заменит его, тоже не помогает.

...