Как использовать метод выборки в PySpark для большого набора данных? - PullRequest
0 голосов
/ 19 июня 2020

Я на самом деле работаю с большим набором данных (87,56,685), состоящим из USERID, MOVIEID и RATING, и мне нужно использовать метод выборки для оценки, чтобы уменьшить размер набора данных, который я ограничен в использовании только стратегия выборки.

Я пробовал это сделать

DataFrame = DataFrame.sampleBy("Rating", fractions={1:0.2, 2: 0.2, 3: 0.2, 4: 0.2, 5: 0.2}, seed=0)
DataFrame.show()

и мое значение rmse больше 3.

Может ли кто-нибудь помочь мне с методом выборки в целом наборы данных?

с примером кода?

...