Question

Как получить те же результаты, что и http://developer.yahoo.com/search/content/V1/termExtraction.html

Этот вопрос задавался довольно много раз прежде.

Пытаясь подойти к этой проблеме с помощью существующих решений, с которыми я столкнулся при «Анализ текста», Solr выполняет работу с документом перед индексацией, как описано в http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters, что также включает в себя определение.

Таким образом, окончательный индекс будет состоять в основном из терминов, используемых для описания документа.

Существует ли решение, которое предоставляет анализаторы, токенизаторы и фильтры токенов для прямого использования? Если Solr - выход, каков наилучший способ получить эти данные из индекса Solr?

Yuval F · Answer 1 · 09 июля 2009

Solr - это способ создать пользовательскую поисковую систему. Похоже, это не самый подходящий инструмент для работы. Статья Википедии о извлечении терминов перечисляет в разделе «внешних ссылок» несколько веб-приложений для извлечения терминов. OpenNLP содержит список инструментов, которые могут быть полезны. Его Chunker может быть полезным.

Tom Chiverton · Answer 2 · 29 февраля 2016

Просто попросите разобранные условия, например.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

См. УсловияКомпонента для получения дополнительной информации.

Извлечение термина: создание тегов из текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение термина: создание тегов из текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы