Я работаю над базами данных Azure, и мой сценарий выглядит следующим образом:
Я читаю (использую: spark.read.format ("csv"). Options (). Load ()) aCSV-файл хранится в хранилище BLOB-объектов.Такой файл содержит 1000 столбцов / переменных (одна тысяча), но данные и заголовок разделены (разные файлы).Я хочу отобразить заголовки в pyspark.sql.dataframe.DataFrame, но мой подход занял 1,18 часа.
Это подход, который я использовал.
oldNames = df.schema.names
newNames = ["name", "lastName" ,.........] #Just an example
dfMap= reduce(lambda df, idx: df.withColumnRenamed(oldColumns[idx], newColumns[idx]), range(len(oldColumns)), df)
Я уверен, что есть быстрееспособ / лучший подход для выполнения такой задачи.
Спасибо!