Я на самом деле работаю с большим набором данных (87,56,685), состоящим из USERID
, MOVIEID
и RATING
, и мне нужно использовать метод выборки для оценки, чтобы уменьшить размер набора данных, который я ограничен в использовании только стратегия выборки.
Я пробовал это сделать
DataFrame = DataFrame.sampleBy("Rating", fractions={1:0.2, 2: 0.2, 3: 0.2, 4: 0.2, 5: 0.2}, seed=0)
DataFrame.show()
и мое значение rmse больше 3.
Может ли кто-нибудь помочь мне с методом выборки в целом наборы данных?
с примером кода?