В настоящее время у меня есть следующий набор данных:
Injury_Type Organ PositionGroup Age speed
[injured] [back] LW 30.929500 5.239167
[torn] [biceps] CB 26.26 4.53
[torn] [ACL] LB 26.15 4.44
Еще с несколькими строками, связанными с игроком, с типом травмы, которую он получил, органом, который получил травму, положением, в котором они играют, и их возрастом. и скорость. Моя цель - количество игр, которые игрок пропустит. Я пытаюсь обучить модель прогнозировать количество игр, которые пропустит игрок.
Некоторые столбцы хранятся в массивах, и это вызывает у меня некоторые проблемы с запуском моей модели в sklearn. Как я могу обойти это? Я новичок в sklearn, и если бы вы, ребята, тоже имели какие-то отзывы о процессе, я мог бы предсказать количество пропущенных игр, что было бы здорово. Я пытаюсь построить случайный лесной классификатор, чтобы сначала увидеть важность функций, после чего я буду запускать K-кратную проверку, масштабировать функции, а затем обучать модель на нескольких алгоритмах ML.
Как вы думаете, это хороший способ идти о вещах? Ребята, вы предлагаете какие-нибудь изменения?