Запись кадра данных с тысячами столбцов в HDFS занимает много времени - PullRequest
0 голосов
/ 08 мая 2019

Я пытаюсь выполнить SQL-запрос на Spark, который генерирует таблицу с примерно 10 000 столбцов, и хочу записать это в файл паркета в HDFS:

trial = spark.sql(sqlQuery)
trial.write.mode('overwrite').option("delimiter", "\100").parquet("path/to/HDFS/trial.parquet)

Кажется, что это занимает многовремя написать таблицу в HDFS.Могу ли я что-нибудь сделать для повышения эффективности?

...