У меня есть CSV-файл с сотнями тысяч строк. Информация была собрана в порядке пользователем.
Например, входные данные одного пользователя могут находиться в диапазоне от 20 до 400 строк, а соответствующая цель - отдельная строка, с которой начинается первая пользовательская строка ввода.
входы |Цели
0, 7
1
2
3
4
Таким образом, один набор целей нах количество входных строк.
Некоторые из моих столбцов содержат «-», я чувствую, что это испортит мою модель при попытке тренироваться, учитывая, что это не float или int, что я должен делать?
Кроме того, я должен перетасовать свои данные, если они разбиты на фрагменты, как это?