Как прочитать выбранные несколько файлов в папке с sparklyr? - PullRequest
0 голосов
/ 24 января 2019

Я бы хотел прочитать ВЫБРАННЫЕ несколько файлов с помощью sparklyr. У меня есть несколько файлов CSV (например, a1.csv, a2.csv, a3.csv, a4.csv, a5.csv) в папке, и я хотел бы прочитать a2.csv, a3.csv, a4.csv файлы сразу, если это возможно.

Я знаю, что могу прочитать CSV-файл с spark_read_csv(sc, "cash", "/dir1/folder1/a2"), поэтому я попытался

a_all <- data.frame(col1=integer(),col2=integer())
a_all <- sdf_copy_to(sc, a_all, "a_all")


for(i in 2:4){
     tmp1 <- spark_read_csv(sc=sc, name="tmp1", paste0("/dir1/folder1/a",i))
     a_all <- sdf_bind_rows(a_all, tmp1)
}

В результате я получу spark_tbl, который связывает файлы a2.csv, a3.csv, a4.csv rbind(a2,a3,a4).

Я думаю, что есть способ сделать это проще (возможно, без цикла), используя path=, но я не уверен, как выбрать только несколько файлов CSV в папке. Пожалуйста, помогите!

...