Как определить, какие слова обладают высокой предсказательной силой в Анализе настроений? - PullRequest
1 голос
/ 20 июня 2019

Я работаю над проблемой классификации данных Tweeter.Помеченные пользователем твиты (релевантные, не релевантные) используются для обучения классификатора машинного обучения с целью прогнозирования, является ли невидимый твит релевантным или нет для пользователя.

Я использую простые методы предварительной обработки, такие как удаление стоп-слов, прохождение текста и т. Д. И склеарн Tfidfvectorizer для преобразования слов в числа перед их подачей в классификатор, например SVM, ядро ​​SVM, наивный байесовский.

Я бы хотел определить, какие слова (признаки) обладают большей предсказательной силой.Каков наилучший способ сделать это?

Я пробовал wordcloud, но он просто показывает слова с самой высокой частотой в выборке.

ОБНОВЛЕНИЕ:

Следующий подход вдольс помощью sklearns feature_selection, по-видимому, дает лучший ответ на мою проблему:

основные функции Любые другие предложения?

1 Ответ

1 голос
/ 20 июня 2019

Вы пробовали использовать tfidf?Это создает взвешенную матрицу, обеспечивающую больший вес для более семантически значимых слов каждого текста.Он сравнивает отдельный текст (в данном случае твит) со всеми текстами (все твиты).Это гораздо полезнее, чем использование необработанных подсчетов терминов для классификации и других задач.https://scikit -learn.org / стабильный / модули / полученные / sklearn.feature_extraction.text.TfidfVectorizer.html

...