Я новичок в pyspark. У меня есть 10k текстовых данных. Я создаю расстояние Жакара, используя Minha sh l sh. вывод, который я получил, например,
col1 col2 dist
A B 0.77
B C 0.56
C A 0.88
Я хочу преобразовать это в матричный формат NxN.
A B C
A 0 0.77 0.88
B 0.77 0 0.56
C 0.88 0.56 0
Есть ли способ создать это с помощью pyspark. Я ценю предложения.