Question

Я настраиваю Jackrabbit 2.3.6 и мне нужно проиндексировать двоичные файлы (PDF, ODT).Поэтому я настроил SearchIndex в repository.xml в соответствии с http://wiki.apache.org/jackrabbit/Search. Но когда я вставляю файл в репозиторий и пытаюсь выполнить полнотекстовый поиск, результаты не возвращаются.

Тогда я заметил предупреждениев журналах:

SearchIndex.java:2087 The textFilterClasses configuration parameter has been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor

Как мне настроить SearchIndex для индексации двоичных данных?Сейчас я делаю это так, что устарело и не работает в соответствии с вышеупомянутым предупреждением:

<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex">
    <param name="path" value="${rep.home}/repository/index"/>
    <param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/>
    <param name="supportHighlighting" value="true"/>
</SearchIndex>

Спасибо за ответы.

RobSis · Answer 1 · 12 апреля 2012

Это ответ на аналогичный вопрос от Марка Хермана из списка рассылки Jackrabbit Users:

Я не эксперт, но я знаю, что JR использует Tika для извлечения текста, и это определяеткак на основе свойства jcr: mimeType.Если вы не предоставите mimetype, он не будет знать, как извлечь его (хотя я бы не рекомендовал это в качестве практики).Я считаю, что есть способ снабдить JR конфигурацией Tika, которая может дать вам то, что вы хотите. РЕДАКТИРОВАТЬ: Нет.Он жестко запрограммирован.

Кроме того, вы можете указать конфигурацию индексации в файлах XML репозитория / рабочей области, в которой вы можете установить некоторые правила в отношении того, что индексируется и как выполняется в lucene.

Ravish Bhagdev · Answer 2 · 26 июня 2015

Вам не нужно ничего делать, чтобы включить разбор Тики. Пока вы добавляете свойство mimetype, оно будет автоматически анализировать и индексировать содержимое документа (если формат поддерживается определенной версией Tika, в которой он включен).

Надеюсь, это кому-нибудь поможет. Документация на крольчонка очень скудна. Тот факт, что Apache Oak, похоже, заменит его, тоже не помогает.

Jackrabbit устарел атрибут SearchIndex textFilterClasses

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Jackrabbit устарел атрибут SearchIndex textFilterClasses

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы