Я хочу подтвердить, что значения столбца PySpark DataFrame одинаковы во всех строках. Например, имея следующий DataFrame
+----------+----------+
| A | B |
+----------+----------+
| 2.0| 0.0|
| 0.0| 0.0|
| 1.0| 0.0|
| 1.0| 0.0|
| 0.0| 0.0|
| 1.0| 0.0|
| 0.0| 0.0|
+----------+----------+
столбец "A" не является константой, а "B" является.
Я пробовал два метода:
1- Проверьте стандартное значение = 0:
df.select(stddev(col('B'))).collect()
2- Получить разные значения:
df.select("B").distinct().collect()
Первый метод занимает 16 минут, а второй - 12 минут, но это только одно выполнение, так что я не уверен в его значимости.
Как лучше всего проверить это в PySpark?