Как реализовать взвешивание функций TF_IDF с помощью Наивного Байеса - PullRequest
3 голосов
/ 09 июня 2011

Я пытаюсь реализовать наивный байесовский классификатор для анализа настроений.Я планирую использовать весовой коэффициент TF-IDF.Я просто немного застрял сейчас.NB обычно использует слово (особенность) частоты, чтобы найти максимальную вероятность.Итак, как мне ввести весовой коэффициент TF-IDF в наивном байесовском методе?

Ответы [ 2 ]

2 голосов
/ 18 апреля 2013

Вы используете веса TF-IDF в качестве признаков / предикторов в вашей статистической модели.Я предлагаю использовать gensim [1] или scikit-learn [2] для вычисления весов, которые вы затем передаете в свою наивную байесовскую процедуру подбора.

Учебник по работе с текстом scikit-learn [3] также может представлять интерес.

[1] http://scikit -learn.org / dev / modules / generate / sklearn.feature_extraction.text.TfidfTransformer.html

[2] http://radimrehurek.com/gensim/models/tfidfmodel.html

[3] http://scikit -learn.github.io / scikit-learn-tutorial / working_with_text_data.html

0 голосов
/ 05 августа 2011

Вы можете посетить в следующем блоге подробно показывает, как вы рассчитываете TFIDF.

...