Я использую Spark 2.2 вместе с Scala 2.11 для анализа каталога и преобразования данных внутри него.
Для обработки кодировки ISO я использую hadoopFile, например:
val inputDirPath = "myDirectory"
sc.hadoopFile[LongWritable, Text, TextInputFormat](inputDirPath).map(pair => new String(pair._2.getBytes, 0, pair._2.getLength, "iso-8859-1")).map(ProcessFunction(_)).toDF
Как получить имя файла каждой строки в ProcessFunction?ProcessFunction принимает String в параметре и возвращает объект.
Спасибо за потраченное время