PySpark читает несколько файлов при создании нового столбца, содержащего имя существующего столбца - PullRequest
0 голосов
/ 16 ноября 2018

Я бы хотел прочитать n csv-файлы, используя pyspark.CSV имеет ту же схему, но с разными именами столбцов.

enter image description here

При чтении этих файлов я хотел бы создать дополнительный столбец "конвейер", который содержитподстрока имени первого столбца.

Как я могу это реализовать?

 df = spark.read.format("csv") \
                .option("header", True) \
                .load(path + "*.csv")
                .withColumn("pipeline", 

1 Ответ

0 голосов
/ 16 ноября 2018
df = spark.read.format("csv") \
                .option("header", "false") \
                .load(path + "*.csv")
                .toDF('header_1')
                .withColumn("pipeline", lit(path))
...