У меня есть ноутбук Jupyter, на котором запущено ядро spylon (Scala / Spark).
В настоящее время я пытаюсь загрузить записи из csv в RDD и затем сопоставить каждую запись с объектами " Погода "класс следующим образом:
val lines = scala.io.Source.fromFile("/path/to/nycweather.csv").mkString
println(lines)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
//Next, you need to import a library for creating a SchemaRDD. Type this:
import sqlContext.implicits._
//Create a case class in Scala that defines the schema of the table. Type in:
case class Weather(date: String, temp: Int, precipitation: Double)
//Create the RDD of the Weather object:
val weather = sc.textFile("/path/to/nycweather.csv").map(_.split(",")). map(w => Weather(w(0), w(1).trim.toInt, w(2).trim.toDouble)).toDF()
//It all works fine until the last line above.
//But when I run this line of code:
weather.first()
Все это всплывает со следующим сообщением об ошибке
сообщение имеет пару больше строк, но я опущен, чтобы быть более заметным.
Может кто-нибудь указать, почему я получаю эту ошибку и предложить изменения кода для ее устранения?