Question

Я на самом деле работаю с большим набором данных (87,56,685), состоящим из USERID, MOVIEID и RATING, и мне нужно использовать метод выборки для оценки, чтобы уменьшить размер набора данных, который я ограничен в использовании только стратегия выборки.

Я пробовал это сделать

DataFrame = DataFrame.sampleBy("Rating", fractions={1:0.2, 2: 0.2, 3: 0.2, 4: 0.2, 5: 0.2}, seed=0)
DataFrame.show()

и мое значение rmse больше 3.

Может ли кто-нибудь помочь мне с методом выборки в целом наборы данных?

с примером кода?

Как использовать метод выборки в PySpark для большого набора данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как использовать метод выборки в PySpark для большого набора данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы