pyspark for loop to iter со значениями строк - PullRequest
0 голосов
/ 08 июня 2019

У меня есть код ниже в R, и я пытаюсь преобразовать его в эквивалентный код pyspark, но после преобразования мои ожидаемые результаты отличаются.Может кто-нибудь подсказать мне, что здесь происходит.

Код R такой, как показано ниже

# loop through all  values, from the lowest to the highest
for (i in 1:nrow(values)){
  # select all pairs whose weights are >= currently processed weight
  tmp <- data_int[vote >= values[i, vote]]

, и я преобразую его в pyspark как

result = []

for row in values.collect():
    tmp = data_int.filter(data_int.vote >= values.vote)

МожетКто-нибудь подскажет, как преобразовать его для выполнения желаемой операции в pyspark

входной фрейм данных data_int равен

col1  col2  vote
12     567   0.2
23     568   0.9
14     254   0.38
21     258   0.89

значениями фрейма данных является

vote
 0.3
0.9
0.80
0.36

и tmp (желаемый результат равен) tmp:

col1  col2  vote
23     568   0.9
14     254   0.38
21     258   0.89

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...