Выбор наилучшего алгоритма для задачи классификации - PullRequest
0 голосов
/ 01 мая 2019

У меня есть набор данных, состоящий из данных переписи (возраст, пол, тип занятости, раса, уровень образования и т. Д.). Моя задача - написать алгоритм, который предсказывает, будет ли валовой годовой доход (30, мужчина, белый и т. Д.) Превышать 50 000 долларов США.

До сих пор я реализовал алгоритм KNN, который работает в течение 30 часов, но достигает ~ 90% точности данных испытаний. Я надеялся достичь более высокой точности, используя алгоритм SVM, или Наивный Байес, или что-нибудь еще, что могло бы работать здесь.

Я ищу алгоритм, который будет относительно простым для реализации (примерно таким же сложным, как KNN) в python, и, вероятно, достигнет хорошей точности. Какой лучший выбор в этом случае? Если KNN - лучший выбор, какой алгоритм будет проще всего реализовать в целях сравнения?

1 Ответ

0 голосов
/ 01 мая 2019

Трудно сказать априори , какой алгоритм будет работать лучше.Обычно для традиционных задач классификации, таких как ваш, случайный лес, машины с градиентным усилением и SVM часто дают наилучшие результаты.

Я не понимаю, что вы имеете в виду, ища «относительно простой в реализации алгоритм»", но если вы используете scikit-learn , многие алгоритмы уже реализованы и поместятся в одну или две строки кода, так что вы можете попробовать их все!

...