Из простого информационного кадра, подобного этому в PySpark:
col1 col2 count
A 1 4
A 2 8
A 3 2
B 1 3
C 1 6
Я хотел бы продублировать строки, чтобы каждое значение col1 было с каждым значением col2, а количество столбцов было заполнено 0 для теху нас нет первоначальной стоимости.Было бы так:
col1 col2 count
A 1 4
A 2 8
A 3 2
B 1 3
B 2 0
B 3 0
C 1 6
C 2 0
C 3 0
У вас есть идеи, как это сделать эффективно?