Spark- Scala читает несколько файлов и перемещается в другой каталог - PullRequest
0 голосов
/ 24 марта 2020

У меня есть несколько файлов CSV в формате hdf, и некоторые из них не в хорошем формате, я хотел бы прочитать каталог файлов CSV, а затем в случае успешного перемещения файлов в другой каталог. Как я могу добиться этого, используя spark- scala

1 Ответ

0 голосов
/ 24 марта 2020

Вам нужно что-то подобное:

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.SparkContext

val conf = sc.hadoopConfiguration
val fs = FileSystem.get(conf)

val srcPath = "dbfs:/src/"
val dest = "dbfs:/dest/"
val ls      = fs.listStatus(new Path(srcPath))

ls.foreach{ p => {
  if(true) spark.read.csv(p.getPath.toString).write.csv(dest + p.getName)
  else println("File ${p.getName} got wrong format")
}}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...