У меня немного странный. У меня есть куча журналов, которые мне нужно тралить. Я успешно сделал это в Spark, и я доволен этим.
Однако мне нужно добавить еще одно поле в фрейм данных, который является центром обработки данных.
Единственное место, гдеИмя центра данных может быть получено из пути к каталогу.
Например:
/feedname/date/datacenter/another/logfile.txt
Каким образом можно извлечь путь к файлу журнала и вставить его в кадр данных? Оттуда я могу сделать несколько строк и извлечь нужный мне бит.
Мой текущий код:
mpe_data = my_spark.read\
.option("header","false")\
.option("delimiter", "\t")\
.withColumn("Datacenter", input_file_name())\
.csv('hdfs://nameservice/data/feed/mpe/dt=20191013/*/*/*', final_structure)
mpe_data.printSchema()
mpe_data.createOrReplaceTempView("mpe")