Классификация текста извлечь теги из текста - PullRequest
2 голосов
/ 24 января 2012

У меня есть индекс lucene с большим количеством текстовых данных, у каждого элемента есть описание, я хочу извлечь более общие слова из описания и сгенерировать теги для классификации каждого элемента на основе описания, есть ли lucene.net библиотека для выполнения этой или любой другой библиотеки для классификации текста?

Ответы [ 2 ]

2 голосов
/ 25 января 2012

Нет, lucene.net может выполнять поиск, индексирование, нормализацию текста, функциональность "найди больше похожего", но не классификацию текста.

Что предложить тебе, зависит от твоих требований.Так что, может быть, нужно больше описания.Но, как правило, проще всего попробовать использовать внешние сервисы.Все внешние сервисы имеют REST API, и с ним очень легко взаимодействовать с помощью C #.

Из внешних сервисов:

Также есть хороший Java SDK, такой как Mahout.Как я помню, взаимодействие с Mahout можно было бы сделать так же, как с сервисом, поэтому интеграция с ним вообще не проблема.

У меня была похожая задача «автоматической пометки» с использованием c #, и я использовал для этого OpenКале.Совершать 50 000 транзакций в день бесплатно.Этого было достаточно для меня.Кроме того, у uClassify есть хорошие цены, как, например, лицензия «Инди» 99 $ в год.

Но, возможно, внешние сервисы и Mahout вам не по карману.Тогда взгляните на проект DBpedia и RDF.И последнее, вы можете использовать, по крайней мере, несколько реализаций наивного байесовского алгоритма.Это легко, и все будет под вашим контролем.

1 голос
/ 25 января 2012

Это очень сложная проблема, но если вы не хотите тратить на нее время, вы можете взять все слова с частотой от 5% до 10% во всем документе.Или вы просто берете самые распространенные 5 слов.

Хорошо выполнить извлечение тега очень, очень сложно.Это так сложно, что целые компании живут от веб-сервисов, выставляющих такой API.

Вы также можете удалить стоп-слово (используя фиксированный список стоп-слов, полученный из Интернета).

И вы можете найти общиеN-граммы (например, пары), которые вы можете использовать для поиска тэгов из нескольких слов.

...