Чирикать настроения с принятием решения ID3 - PullRequest
0 голосов
/ 09 марта 2019

Привет всем, кто изучает машины, я аспирант, и у меня возникли проблемы с анализом данных твитов, будь то положительных или отрицательных, с помощью дерева решений.Мой пример данных - это отправка артефактов, и я в основном буду использовать эти два атрибута в наборе данных https://www.kaggle.com/crowdflower/twitter-airline-sentiment "сентимент", "твиты", положительные @VirginAmerica, действительно агрессивно взрывать неприятные "развлечения" на лицах ваших гостей, и ониесть немного ресурсов

Я путаю в шаге подачи данных в алгоритм дерева решений.Должен ли я использовать термины tf-idf для каждого слова, содержащегося в наборе данных, в алгоритм ID3?Если это так, каждое отдельное слово станет измерением / атрибутами со значениями tf-idf и сделает ID3 исчерпанным во многих измерениях.Я не уверен, правильно ли я рассматриваю это или нет.Я ищу много учебников для этого, но не нашел точную информацию, которую я хочу знать.И после написания кода Python для вычисления tf-idf для каждого слова, содержащегося в каждом твите, я не знаю, как перейти к алгоритму ID3, чтобы начать вычисление индекса GINI с этими значениями tf-idf.Итак, не могли бы вы помочь мне, как поступить с объяснением или примером кода.Большое спасибо заранее.Я действительно застрял в этом. Вот пример расчета для tfidf, который я вычисляю для каждого слова, содержащегося в каждом твите.
введите описание изображения здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...