Отображение заголовков в DataSrame PySpark sql - PullRequest
0 голосов
/ 27 ноября 2018

Я работаю над базами данных Azure, и мой сценарий выглядит следующим образом:

Я читаю (использую: spark.read.format ("csv"). Options (). Load ()) aCSV-файл хранится в хранилище BLOB-объектов.Такой файл содержит 1000 столбцов / переменных (одна тысяча), но данные и заголовок разделены (разные файлы).Я хочу отобразить заголовки в pyspark.sql.dataframe.DataFrame, но мой подход занял 1,18 часа.

Это подход, который я использовал.

oldNames = df.schema.names
newNames = ["name", "lastName" ,.........] #Just an example
dfMap= reduce(lambda df, idx: df.withColumnRenamed(oldColumns[idx], newColumns[idx]), range(len(oldColumns)), df)

Я уверен, что есть быстрееспособ / лучший подход для выполнения такой задачи.

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...