Машинное обучение с набором данных моей машины - PullRequest
0 голосов
/ 22 мая 2018

Я очень плохо знаком с машинным обучением.У меня есть набор данных с данными, предоставленными мне гонкой f1.Пользователь играет в эту игру и дает мне этот набор данных.При машинном обучении мне приходится работать с этими данными, и когда пользователь (я знаю, что им 10) играет в игру, я должен узнать, кто играет.

Данные состоят из пакета дейтаграмм, произошедшего за 1/10 секунды.Freq, пакеты содержат следующее Time, laptime, lapdistance, totaldistance, speed, car position, traction control, last lap time, fuel, gear,..

Я думал использовать kmeans, используемый под наблюдением.Какой алгоритм может быть лучше?

Ответы [ 2 ]

0 голосов
/ 19 июня 2018

Задача должна быть мультиклассовой классификацией.Самым первым шагом в любой деятельности по машинному обучению является определение метрики оценки (https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/).), которая позволяет сравнивать модели между собой и решать, что лучше. Затем построить базовую модель со случайным лесом или / и логистической регрессией какпредлагается в другом ответе - они хорошо работают "из коробки". Затем попробуйте поиграть с функциями и понять, какие из них более информативны. И не забывайте о визуализациях - они дают много подсказок для обработки данных и т. д.

0 голосов
/ 22 мая 2018

это довольно широкий вопрос, поэтому я постараюсь изо всех сил

kmeans - это неконтролируемый алгоритм, означающий, что он сам найдет классы и его лучше всего использовать, когда вы знаете, что есть несколько классов, но вы этого не делаетезнать, что именно они ... использование его с помеченными данными просто означает, что вы вычислите расстояние нового вектора v до каждого вектора в наборе данных и выберете тот (или тот, который использует большинство голосов), который дает минимальное расстояние, это нерассматривается как машинное обучение

в этом случае, когда у вас есть метки, контролируемый подход даст гораздо лучшие результаты

Я предлагаю попробовать случайный лес и логистическая регрессия сначала, это самые основные и распространенные алгоритмы, и они дают довольно хорошие результаты

если вы не достигли желаемой точности, вы можете использовать глубокое обучение и построить нейронную сеть с большим входным слоемв качестве значений вашего пакета и выходного уровня числа классов, между ними вы можете использовать один или несколькоПерекрывайте скрытые слои различными узлами, но это продвинутый подход, и вам лучше приобрести некоторый опыт в области машинного обучения, прежде чем использовать его

Примечание: данные представляют собой временные ряды, что означает, что каждый драйвер имеет свое собственное поведениеза рулем автомобиля, поэтому данные следует рассматривать как совокупность точек, при этом вы можете применять технику сопоставления с образцом, также есть несколько нейронных сетей, построенных именно для этих данных (например, RNN ), но это далекопродвинутый и гораздо более сложный для реализации

...