Я работаю над проблемой классификации данных Tweeter.Помеченные пользователем твиты (релевантные, не релевантные) используются для обучения классификатора машинного обучения с целью прогнозирования, является ли невидимый твит релевантным или нет для пользователя.
Я использую простые методы предварительной обработки, такие как удаление стоп-слов, прохождение текста и т. Д. И склеарн Tfidfvectorizer для преобразования слов в числа перед их подачей в классификатор, например SVM, ядро SVM, наивный байесовский.
Я бы хотел определить, какие слова (признаки) обладают большей предсказательной силой.Каков наилучший способ сделать это?
Я пробовал wordcloud, но он просто показывает слова с самой высокой частотой в выборке.
ОБНОВЛЕНИЕ:
Следующий подход вдольс помощью sklearns feature_selection, по-видимому, дает лучший ответ на мою проблему:
основные функции Любые другие предложения?