Я пытаюсь преобразовать функцию pandas "dot matrix nansum" в pyspark .Цель состоит в том, чтобы преобразовать эту таблицу в матрицу ненулевых сумм столбцов:
dan ste bob
t1 na 2 na
t2 2 na 1
t3 2 1 na
t4 1 na 2
t5 na 1 2
t6 2 1 na
t7 1 na 2
Например, когда 'dan' не равен нулю (t-2,3,4,6,7)сумма «ste» равна 2, а «bob» равна 5. Когда «ste» не равно нулю, сумма «dan» равна 4. (Я обнулел диагональ, но не нужно)
dan ste bob
dan 0 2 5
ste 4 0 2
bob 4 1 0
расчет должен оставаться распределенным (без панд).Вот версия для панд, которая прекрасно работает: https://stackoverflow.com/a/46871184/7542835