Я работаю над проектом интеллектуального анализа данных, когда мне нужно иметь возможность предсказать шансы на успех при финансировании проекта Kickstarter.
Я использовал набор данных kickstarter, который я нашел в Kaggle, и я очистил все зашумленные данные, удалил нерелевантные атрибуты и добавил другие полезные атрибуты.
Теперь у меня есть около 320K экземпляров и 6 атрибутов.
После запуска алгоритма J48 я получаю 65,07% правильно классифицированных экземпляров и 68,7% средней площади c. Мне нужно улучшить эту производительность, но я не знаю, как.
Это проект колледжа, поэтому у меня есть конкретные правила c: я могу изменить только коэффициент доверия и NumMinObj алгоритма. Я трачу много времени, пробуя каждую комбинацию.
Что я могу сделать еще? Может быть, что-то в моем наборе данных проблематично c?