Weka - Как я могу улучшить производительность J48? - PullRequest
0 голосов
/ 16 января 2020

Я работаю над проектом интеллектуального анализа данных, когда мне нужно иметь возможность предсказать шансы на успех при финансировании проекта Kickstarter.

Я использовал набор данных kickstarter, который я нашел в Kaggle, и я очистил все зашумленные данные, удалил нерелевантные атрибуты и добавил другие полезные атрибуты.

Теперь у меня есть около 320K экземпляров и 6 атрибутов.

После запуска алгоритма J48 я получаю 65,07% правильно классифицированных экземпляров и 68,7% средней площади c. Мне нужно улучшить эту производительность, но я не знаю, как.

Это проект колледжа, поэтому у меня есть конкретные правила c: я могу изменить только коэффициент доверия и NumMinObj алгоритма. Я трачу много времени, пробуя каждую комбинацию.

Что я могу сделать еще? Может быть, что-то в моем наборе данных проблематично c? enter image description here

1 Ответ

0 голосов
/ 22 января 2020

У вас много экземпляров, но мало атрибутов. Если вы не можете добавить больше атрибутов, то, вероятно, вы уже получили лучший результат, который вы можете получить с J48 деревьями, и выбор функций бесполезен. Возможно, вам придется использовать более сложный алгоритм классификации, такой как RandomForest.

...