У меня есть код ниже в R, и я пытаюсь преобразовать его в эквивалентный код pyspark, но после преобразования мои ожидаемые результаты отличаются.Может кто-нибудь подсказать мне, что здесь происходит.
Код R такой, как показано ниже
# loop through all values, from the lowest to the highest
for (i in 1:nrow(values)){
# select all pairs whose weights are >= currently processed weight
tmp <- data_int[vote >= values[i, vote]]
, и я преобразую его в pyspark как
result = []
for row in values.collect():
tmp = data_int.filter(data_int.vote >= values.vote)
МожетКто-нибудь подскажет, как преобразовать его для выполнения желаемой операции в pyspark
входной фрейм данных data_int равен
col1 col2 vote
12 567 0.2
23 568 0.9
14 254 0.38
21 258 0.89
значениями фрейма данных является
vote
0.3
0.9
0.80
0.36
и tmp (желаемый результат равен) tmp:
col1 col2 vote
23 568 0.9
14 254 0.38
21 258 0.89