Question

У меня есть несколько файлов CSV в формате hdf, и некоторые из них не в хорошем формате, я хотел бы прочитать каталог файлов CSV, а затем в случае успешного перемещения файлов в другой каталог. Как я могу добиться этого, используя spark- scala

Simon Delecourt · Answer 1 · 24 марта 2020

Вам нужно что-то подобное:

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.SparkContext

val conf = sc.hadoopConfiguration
val fs = FileSystem.get(conf)

val srcPath = "dbfs:/src/"
val dest = "dbfs:/dest/"
val ls      = fs.listStatus(new Path(srcPath))

ls.foreach{ p => {
  if(true) spark.read.csv(p.getPath.toString).write.csv(dest + p.getName)
  else println("File ${p.getName} got wrong format")
}}

Spark- Scala читает несколько файлов и перемещается в другой каталог

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark- Scala читает несколько файлов и перемещается в другой каталог

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов