это довольно широкий вопрос, поэтому я постараюсь изо всех сил
kmeans - это неконтролируемый алгоритм, означающий, что он сам найдет классы и его лучше всего использовать, когда вы знаете, что есть несколько классов, но вы этого не делаетезнать, что именно они ... использование его с помеченными данными просто означает, что вы вычислите расстояние нового вектора v до каждого вектора в наборе данных и выберете тот (или тот, который использует большинство голосов), который дает минимальное расстояние, это нерассматривается как машинное обучение
в этом случае, когда у вас есть метки, контролируемый подход даст гораздо лучшие результаты
Я предлагаю попробовать случайный лес и логистическая регрессия сначала, это самые основные и распространенные алгоритмы, и они дают довольно хорошие результаты
если вы не достигли желаемой точности, вы можете использовать глубокое обучение и построить нейронную сеть с большим входным слоемв качестве значений вашего пакета и выходного уровня числа классов, между ними вы можете использовать один или несколькоПерекрывайте скрытые слои различными узлами, но это продвинутый подход, и вам лучше приобрести некоторый опыт в области машинного обучения, прежде чем использовать его
Примечание: данные представляют собой временные ряды, что означает, что каждый драйвер имеет свое собственное поведениеза рулем автомобиля, поэтому данные следует рассматривать как совокупность точек, при этом вы можете применять технику сопоставления с образцом, также есть несколько нейронных сетей, построенных именно для этих данных (например, RNN ), но это далекопродвинутый и гораздо более сложный для реализации