Классификатор K-ближайших соседей: выбирает только один вариант - PullRequest
0 голосов
/ 10 июля 2020

У меня есть набор данных из примерно 25 000 записей, касающихся привычек употребления алкоголя среди пользователей приложения. Около 75% указанных потребителей указывают свою привычку употреблять алкоголь как «часто»

Моделирование по множеству факторов, таких как возраст, этническая принадлежность, пол и т. Д. c. Мой классификатор решил, что лучший вариант - просто всегда выбирать «часто» с точностью (конечно) около 75%:

Фактическое разделение привычек употребления алкоголя среди проверочного набора

Прогнозируемое разделение привычек употребления алкоголя среди проверенных наборов

Это дополнительно выделено на графике зависимости точности по оси Y от соседей по оси x:

оценка по сравнению с соседями

Является ли это ограничением модели этого типа, в которой разнообразие данных невелико, или я что-то делаю не так?

...