Я новичок, и мне нужна помощь в обработке миллиардов записей, чтобы найти непоследовательность в наборе данных. В этом сценарии использования необходимо вычислить значение r2 для каждого уровня пользователя, поэтому нельзя использовать наборы данных test / train.
Я использую из pyspark.ml.regression import LinearRegression
Мой набор данных как это в таблице:
User_id type rank_by_type sequence
1 A 1 1
1 A 2 7
1 B 1 5
1 B 2 6
Так что мне нужно найти оценку r2, чтобы определить, не в порядке ли последовательность, то есть в приведенном выше примере 5,6 в последовательности, а 1,7 нет в послед. User_id и Type делают уникальную запись.
Подскажите, пожалуйста, как я могу использовать logi c для вычисления r2, а также как лучше всего обработать огромный набор данных с использованием spark.ml