Могу ли я читать только нужные файлы из каталога в scala-spark - PullRequest
1 голос
/ 22 октября 2019

Я хочу прочитать некоторые конкретные файлы, имена которых у меня есть в массиве. Могу ли я читать и хранить значения только в этих файлах. Я новичок в scala и spark, пожалуйста, помогите мне.

Целые файлы

val status = fs.listStatus(new Path("..../sample/t1988")) 

status.foreach(x=> println(x.getPath))

file:/......../sample/t1988/01001099999.csv
file:/......../sample/t1988/01001399999.csv
file:/......../sample/t1988/01001499999.csv

и так далее

Имена файлов, которые я хочу прочитать, находятся в массиве

arr: Array[Any] = Array(42044099999, 42045099999, 42060099999, 42063099999, 42075099999, 42077099999, 42079099999, 42080199999

Как читать содержимое только указанных файлов

1 Ответ

0 голосов
/ 22 октября 2019

Если у вас есть массив files с путями к вашим CSV-файлам, вы можете прочитать их с помощью Spark следующим образом:

val df = spark.read.format("csv").load(files:_*)
...