Spark SaveAsTextFile () в Scala IDE создает структуры папок "temporay-> 0", а не ту, которая указана в функции - PullRequest
0 голосов
/ 26 мая 2020

Использование Scala IDE для сохранения вывода в файл с кодом ниже


import org.apache.spark.sql.SparkSession

object RDDWithCSVFile {
  def main(args : Array[String]): Unit={
    val spark=SparkSession.builder()
    .appName("Creating RDD with CSV Files")
    .master("local")
    .getOrCreate()

    val rdd= spark.sparkContext.textFile("src/test/resources/datasets/CDH_Wellness.csv")

    val header=rdd.first()

    val csvwithoutheader= rdd.filter(!_.contains(header))

    val elements= rddwithoutheader.map(line => {
      val colarray = line.split(",")
      Array((colarray(0),colarray(4),colarray(5),colarray(10))).mkString(" ")

    })

      elements.saveAsTextFile("C:/Spark_Files/RDDWithCSVFile/New Folder") 
  }
}

Но вместо создания выходного файла-> part-00000, УСПЕХ, его создание приведенная ниже структура папок

C: \ Spark_Files \ RDDWithCSVFile \ New Folder_ Contemporary \ 0_ Contemporary \ try_20200526184311_0006_m_000000_0

В этом каталоге создается только part-00000, но это пустой файл. Файл SUCCESS не создается.

Кто-нибудь может предложить какие-либо предложения.

Ответы [ 2 ]

0 голосов
/ 27 мая 2020

Вызвано: java .io.IOException: (null) запись в строке команды: null chmod 0644 C: \ Spark_Files \ RDDWithCSVFile \ New Folder_porary \ 0_porary \ try_20200527112424_0006_m_000000_0 \ part-00000

* 1002 Ошибка на консоли
0 голосов
/ 27 мая 2020
Updated code:

    val rdd= spark.sparkContext.textFile("src/test/resources/datasets/CDH_Wellness.csv")

    val rddwithoutheader= rdd.filter(_ != header)

    val elements= rddwithoutheader.map(line => {
      val colarray = line.split(",")
      Array((colarray(0),colarray(4),colarray(5),colarray(10))).mkString(" ")
    })

      elements.saveAsTextFile("C:/Spark_Files/RDDWithCSVFile/Output")
  }
}
`
************* 

Updated the output path -C:/Spark_Files/RDDWithCSVFile/Output , but still then its creating the earlier directory

C:\Spark_Files\RDDWithCSVFile\New Folder\_temporary
\0\_temporary\attempt_20200527112424_0006_m_000000_0

The RDD is not empty , the output file its creating is empty
...