У меня есть искровой фрейм данных в pyspark, и мне нужно удалить все константные столбцы из моего фрейма данных.Поскольку я не знаю, какие столбцы являются постоянными, я не могу вручную отменить выбор постоянных столбцов, т.е. мне нужна автоматическая процедура.Я удивлен, что не смог найти простое решение для stackoverflow.
Пример:
import pandas as pd
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()
d = {'col1': [1, 2, 3, 4, 5],
'col2': [1, 2, 3, 4, 5],
'col3': [0, 0, 0, 0, 0],
'col4': [0, 0, 0, 0, 0]}
df_panda = pd.DataFrame(data=d)
df_spark = spark.createDataFrame(df_panda)
df_spark.show()
Вывод:
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
| 1| 1| 0| 0|
| 2| 2| 0| 0|
| 3| 3| 0| 0|
| 4| 4| 0| 0|
| 5| 5| 0| 0|
+----+----+----+----+
Желаемый вывод:
+----+----+
|col1|col2|
+----+----+
| 1| 1|
| 2| 2|
| 3| 3|
| 4| 4|
| 5| 5|
+----+----+
Каков наилучший способ автоматического удаления константных столбцовв писпарк?