Pyspark распределенная матрица сумма ненулевых значений - PullRequest
0 голосов
/ 27 сентября 2018

Я пытаюсь преобразовать функцию pandas "dot matrix nansum" в pyspark .Цель состоит в том, чтобы преобразовать эту таблицу в матрицу ненулевых сумм столбцов:

    dan ste bob
t1  na  2   na
t2  2   na  1
t3  2   1   na
t4  1   na  2
t5  na  1   2
t6  2   1   na
t7  1   na  2

Например, когда 'dan' не равен нулю (t-2,3,4,6,7)сумма «ste» равна 2, а «bob» равна 5. Когда «ste» не равно нулю, сумма «dan» равна 4. (Я обнулел диагональ, но не нужно)

    dan ste bob
dan 0   2   5
ste 4   0   2
bob 4   1   0

расчет должен оставаться распределенным (без панд).Вот версия для панд, которая прекрасно работает: https://stackoverflow.com/a/46871184/7542835

...