Я бы хотел прочитать n csv-файлы, используя pyspark.CSV имеет ту же схему, но с разными именами столбцов.
При чтении этих файлов я хотел бы создать дополнительный столбец "конвейер", который содержитподстрока имени первого столбца.
Как я могу это реализовать?
df = spark.read.format("csv") \
.option("header", True) \
.load(path + "*.csv")
.withColumn("pipeline",