Извлечение термина: создание тегов из текста - PullRequest
5 голосов
/ 09 июля 2009

Как получить те же результаты, что и http://developer.yahoo.com/search/content/V1/termExtraction.html

Этот вопрос задавался довольно много раз прежде.

Пытаясь подойти к этой проблеме с помощью существующих решений, с которыми я столкнулся при «Анализ текста», Solr выполняет работу с документом перед индексацией, как описано в http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters, что также включает в себя определение.

Таким образом, окончательный индекс будет состоять в основном из терминов, используемых для описания документа.

Существует ли решение, которое предоставляет анализаторы, токенизаторы и фильтры токенов для прямого использования? Если Solr - выход, каков наилучший способ получить эти данные из индекса Solr?

Ответы [ 2 ]

4 голосов
/ 09 июля 2009

Solr - это способ создать пользовательскую поисковую систему. Похоже, это не самый подходящий инструмент для работы. Статья Википедии о извлечении терминов перечисляет в разделе «внешних ссылок» несколько веб-приложений для извлечения терминов. OpenNLP содержит список инструментов, которые могут быть полезны. Его Chunker может быть полезным.

1 голос
/ 29 февраля 2016

Просто попросите разобранные условия, например.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

См. УсловияКомпонента для получения дополнительной информации.

...