В Spark's Python API я могу легко добавить имя файла с помощью следующего кода:
df = spark.read.load(input_csv_file_path, format="csv", header='true', inferSchema='true')
df = df.withColumn("input_file", f.input_file_name())
В SparkR в документации есть функция input_file_name
https://spark.apache.org/docs/latest/api/R/index.html но в документации просто написано input_file_name(x = "missing")
, и я не понимаю его использования.
Я попытался использовать этот пример из S / O для следующего кода R:
library(sparklyr)
library(tidyverse)
input_csv_file_path <- '/Users/me/my_path/*.csv'
df <- spark_read_csv(sc, name = 'df', path = input_csv_file_path)
df <- df %>% mutate(id = input_file_name())
df1 <- as.data.frame(df)
Нет ошибки, но поле id
пусто.
TIA