Как получить те же результаты, что и http://developer.yahoo.com/search/content/V1/termExtraction.html
Этот вопрос задавался довольно много раз прежде.
лучший подход для анализа текста в PHP?
Что такое хороший веб-сервис для извлечения ключевых слов?
Что такое простой способ создания ключевых слов из текста?
Пытаясь подойти к этой проблеме с помощью существующих решений, с которыми я столкнулся при «Анализ текста», Solr выполняет работу с документом перед индексацией, как описано в http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters, что также включает в себя определение.
Таким образом, окончательный индекс будет состоять в основном из терминов, используемых для описания документа.
Существует ли решение, которое предоставляет анализаторы, токенизаторы и фильтры токенов для прямого использования? Если Solr - выход, каков наилучший способ получить эти данные из индекса Solr?
Solr - это способ создать пользовательскую поисковую систему. Похоже, это не самый подходящий инструмент для работы. Статья Википедии о извлечении терминов перечисляет в разделе «внешних ссылок» несколько веб-приложений для извлечения терминов. OpenNLP содержит список инструментов, которые могут быть полезны. Его Chunker может быть полезным.
Просто попросите разобранные условия, например.
http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1
См. УсловияКомпонента для получения дополнительной информации.