Как повысить важность столбца в Дереве Решений? - PullRequest
0 голосов
/ 12 февраля 2019

Набор данных I-hava с именем, рейтингами, рейтингами_счетом, жанрами столбцами.

Пример: Movies_Data.csv

   Name             ratings ratings_count Action Adventure Horror Musical Thriller       
    Mad-Max            2           7         1        0       0       0       1
    Mitchell[1975]     3.25        2         1        0       0       0       1
    John Wick          4.23        4         1        0       0       0       0
    Insidious          3.75        10        0        0       1       0       0

Я разделилэто в функции и метки .Затем выполнено кодирование метки для столбца Имя .

Вот мои особенности Набор данных после разделения.

Функции:

ratings ratings_count Action Adventure Horror Musical Thriller       
   2           7         1        0       0       0       1
   3.25        2         1        0       0       0       1
   4.23        4         1        0       0       0       0
   3.75        10        0        0       1       0       0

Теперь проблема в том, что у меня около 18 'Жанр' Столбцы.Поэтому я думаю, что мое дерево решений придает большее значение этим столбцам, а не рейтинги и рейтинги_счет .

Например, если я попрошу дерево предсказать фильм сследующие параметры:

ratings:3 ratings_count:2 Action:1 Adventure:0 Horror:0 Musical:0 Thriller:1

Очевидно, что он должен предсказывать Митчелла [1975] , поскольку рейтинги: 3 близки к 3.25 и rating_count совпадает с моим входом.Но это предсказывает Безумный Макс .Как я могу повысить значимость столбца рейтинги и рейтинги?

Я новичок в ML.Так есть ли какой-либо другой способ или какой-либо другой алгоритм, который я могу использовать для получения лучших рекомендаций?

Ps Я знаю, что мы можем использовать нейронные сети, но мне нужно придерживаться только алгоритмов Basic ML.

Спасибо!

1 Ответ

0 голосов
/ 12 февраля 2019

Во-первых, случайные леса почти всегда дают лучшие результаты, чем деревья решений.У них немного больше гиперпараметров для настройки, но это также может помочь вам добиться лучших результатов.Он называется алгоритмом ансамбля и работает хорошо, потому что он усредняет множество деревьев решений.У него меньше проблем с переобучением, поэтому он должен работать лучше.

Если у вас все еще есть проблемы, вы можете попытаться объединить некоторые категории (или получить больше данных), чтобы ваш алгоритм мог правильно оценить важность рейтинга.

Кроме того, этот вопрос лучше подходит для перекрестной проверки, где вы можете задать больше теоретических вопросов.

Удачи!

...