Как вы классифицируете на основе текстового контента? - PullRequest
3 голосов
/ 15 сентября 2008

Как автоматически найти категории для текста на основе контента?

Ответы [ 5 ]

2 голосов
/ 01 июля 2009

Я бы посоветовал вам взглянуть на библиотеки классификации текста, входящие в комплект Natural Language Toolkit . Даже если вы не знакомы с Python, я думаю, вы найдете API довольно интуитивно понятным. В NLTK Book есть много хороших примеров, и люди из списка рассылки также весьма полезны.

2 голосов
/ 31 декабря 2008
0 голосов
/ 26 апреля 2014

Самым простым способом категоризации текста является использование набора слов представления. Слова / n-граммы слов в каждом документе могут быть использованы как функции. При этом вы можете представить каждый документ как вектор в метрическом пространстве. Впоследствии вы можете применить кластеризация для группировки документов, которые похожи по содержанию. Например, вы можете использовать кластеризацию k-средних с этими векторами для кластеризации лексически похожих документов.

Инструмент для анализа текста на основе Python, NTLK отлично подходит для быстрых экспериментов с подобными задачами (в общем, Python довольно хорош для работы с текстом). Вы можете найти это полезным.

0 голосов
/ 15 сентября 2008

Лучший способ классифицировать контент, будь то текст или мультимедиа, - это использовать таксономия . Большинство хорошо известных CMS имеют встроенную поддержку таксономии. Drupal имеет одну из лучших опций таксономии среди различных CMS.

0 голосов
/ 15 сентября 2008

На этом написана хорошая статья: http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...