Anonymous 27 февраля 2020 2

Pyspark DataFrame загрузить CSV из S3

Anonymous / 27 февраля 2020

У меня есть схема s3, указанная ниже

salesforce-prod / account / 1_1519235654474.csv

Всякий раз, когда я load это как dataframe в pyspark, хочу hardcode <account> имя в схеме как мой фрейм данных column header

df = spark.read.format("com.databricks.spark.csv") \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .load("s3n://salesforce-prod/account/*.csv")

Любая идея, как этого можно достичь, любая помощь будет оценена

...