У меня DataFrame
только с одним row
.
df = spark.createDataFrame([(1,2,10,3,4)],['a','b','c','d','e',])
Но количество столбцов большое, около 20,000
. Теперь я хочу выбрать column
со значением, превышающим пороговое значение, например 5
. Я пытаюсь преобразовать DataFrame
в dict
для подсчета, но встречаю ошибку max Heap size
.
Здесь ожидаемый результат:
+---+
| c|
+---+
| 10|
+---+