как назначить имена столбцов, доступных в CSV-файле, в качестве заголовка или c файла - PullRequest
0 голосов
/ 14 апреля 2020

У меня есть имена столбцов в одном файле .csv, и я хочу назначить их в качестве заголовков столбцов для фрейма данных в scala. Так как это скрипт * generic c, я не хочу жестко кодировать скрипт, а просто передавать значения из файла csv.

1 Ответ

0 голосов
/ 14 апреля 2020

Вы можете сделать это:

val columns = spark.read.option("header","true").csv("path_to_csv").schema.fieldNames
val df: DataFrame = ???
df.toDF(columns:_*).write.format("orc").save("your_orc_dir")

в pyspark:

columns = spark.read.option("header","true").csv("path_to_csv").columns
df.toDF(columns).write.format("orc").save("your_orc_dir")

, но хранить схему данных отдельно от данных - плохая идея

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...