Допустим, датафрейм выглядит следующим образом:
ls = [
['1', -9.78],
['2', 5.38],
['1', 8.86],
['2', -0.47],
['1', -0.19],
['1', 4.78],
['1', -9.23],
['2', -89.32]
]
test = spark.createDataFrame(pd.DataFrame(ls, columns=['col1', 'col2']))
test.show()
выход:
+----+------+
|col1| col2|
+----+------+
| 1| -9.78|
| 2| 5.38|
| 1| 8.86|
| 2| -0.47|
| 1| -0.19|
| 1| 4.78|
| 1| -9.23|
| 2|-89.32|
+----+------+
Я хочу заменить всю строку, в которой значение в столбце col1 == 1, случайным выбором из списка элементов: ['a', 'b', 'c'] (с заменой).
Например, результат будет выглядеть так:
+----+------+
|col1| col2|
+----+------+
| a| -9.78|
| 2| 5.38|
| a| 8.86|
| 2| -0.47|
| c| -0.19|
| b| 4.78|
| a| -9.23|
| 2|-89.32|
+----+------+
Я новичок в Pyspark, и я совершенно не понимаю, когда использовать такие операции, как когда (), где (), withColumn (), select () и т. Д. Я искал на этом сайте, но не могу ' Я не могу найти ответ на мой вопрос, поэтому я очень надеюсь, что кто-нибудь сможет помочь!