Я использую pyspark в качестве языка кода. Я добавил столбец, чтобы получить имя файла с путем.
from pyspark.sql.functions import input_file_name
data = data.withColumn("sourcefile",input_file_name())
Я хочу извлечь из этого столбца только имя файла с его родительской папкой. Пожалуйста, помогите.
Пример:
Inputfilename = "adl://dotdot.com/ingest/marketing/abc.json"
Какой вывод я ищу:
marketing/abc.json
Примечание: строковая операция, которую я могу сделать. Столбец filepath является частью dataframe.