У меня есть несколько файлов CSV в формате hdf, и некоторые из них не в хорошем формате, я хотел бы прочитать каталог файлов CSV, а затем в случае успешного перемещения файлов в другой каталог. Как я могу добиться этого, используя spark- scala
Вам нужно что-то подобное:
import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.SparkContext val conf = sc.hadoopConfiguration val fs = FileSystem.get(conf) val srcPath = "dbfs:/src/" val dest = "dbfs:/dest/" val ls = fs.listStatus(new Path(srcPath)) ls.foreach{ p => { if(true) spark.read.csv(p.getPath.toString).write.csv(dest + p.getName) else println("File ${p.getName} got wrong format") }}