У меня есть набор данных из примерно 25 000 записей, касающихся привычек употребления алкоголя среди пользователей приложения. Около 75% указанных потребителей указывают свою привычку употреблять алкоголь как «часто»
Моделирование по множеству факторов, таких как возраст, этническая принадлежность, пол и т. Д. c. Мой классификатор решил, что лучший вариант - просто всегда выбирать «часто» с точностью (конечно) около 75%:
Фактическое разделение привычек употребления алкоголя среди проверочного набора
Прогнозируемое разделение привычек употребления алкоголя среди проверенных наборов
Это дополнительно выделено на графике зависимости точности по оси Y от соседей по оси x:
оценка по сравнению с соседями
Является ли это ограничением модели этого типа, в которой разнообразие данных невелико, или я что-то делаю не так?