Я пытаюсь перебрать много файлов во многих папках в файле данных. Я две идеи, как показано ниже.
// first attempt
import org.apache.spark.sql.functions.input_file_name
val myDFCsv = spark.read.format("csv")
.option("sep","|")
.option("inferSchema","true")
.option("header","false")
.load("mnt/rawdata/corp/CW*.gz")
.withColumn("file_name", input_file_name())
myDFCsv.count()
// second attempt
import org.apache.spark.sql.functions.input_file_name
val myDFCsv = spark.read
.option("sep", "|")
.option("inferSchema", "true")
.option("header", "false")
.csv("mnt/rawdata/corp/CW*.gz")
.withColumn("file_name", input_file_name())
myDFCsv.count()
В обоих случаях я получаю эту ошибку.
myDFCsv:org.apache.spark.sql.DataFrame = [_c0: string, _c1: string ... 3 more fields]
import org.apache.spark.sql.functions.input_file_name
myDFCsv: org.apache.spark.sql.DataFrame = [_c0: string, _c1: string ... 3 more fields]
res11: Long = 97
Это должно быть очень близко к работе, но что-то кажетсябыть выключенным, и я не могу сказать, что это. Может кто-нибудь указать на проблему и дать мне знать, что здесь не так? Большое спасибо.