Joey 16 ноября 2018 16

PySpark читает несколько файлов при создании нового столбца, содержащего имя существующего столбца

Joey / 16 ноября 2018

Я бы хотел прочитать n csv-файлы, используя pyspark.CSV имеет ту же схему, но с разными именами столбцов.

При чтении этих файлов я хотел бы создать дополнительный столбец "конвейер", который содержитподстрока имени первого столбца.

Как я могу это реализовать?

 df = spark.read.format("csv") \
                .option("header", True) \
                .load(path + "*.csv")
                .withColumn("pipeline",

1 Ответ

Data_101 / 16 ноября 2018

df = spark.read.format("csv") \
                .option("header", "false") \
                .load(path + "*.csv")
                .toDF('header_1')
                .withColumn("pipeline", lit(path))

...