Apache Spark Scala - анализ данных - ошибка - PullRequest
0 голосов
/ 15 апреля 2020

Я новичок / все еще учусь Apache Spark / Scala. Я пытаюсь проанализировать набор данных и загрузил набор данных в Scala. Однако, когда я пытаюсь выполнить базовый c анализ, такой как макс, мин или среднее, я получаю ошибку -

error: value select is not a member of org.apache.spark.rdd.RDD[Array[String]]

Может кто-нибудь, пожалуйста, пролить свет на это, пожалуйста? Я использую Spark на облачном хранилище организации.

Код:

// Reading in the csv file

val df = sc.textFile("/user/Spark/PortbankRTD.csv").map(x => x.split(","))  

// Select Max of Age

df.select(max($"age")).show()                                                                                                        

Ошибка:

<console>:40: error: value select is not a member of org.apache.spark.rdd.RDD[Array[String]]                                                
          df.select(max($"age")).show()  

Пожалуйста, дайте мне знать, если вам нужна дополнительная информация. Спасибо

1 Ответ

3 голосов
/ 15 апреля 2020

После моего комментария метод textFile возвращает RDD[String]. select - это метод для DataFrame. Вам нужно будет конвертировать RDD[String] в DataFrame. Вы можете сделать это несколькими способами. Один из примеров:

import spark.implicits._

val rdd = sc.textFile("/user/Spark/PortbankRTD.csv")
val df = rdd.toDF()

Также есть встроенные считыватели для многих типов входных файлов:

spark.read.csv("/user/Spark/PortbankRTD.csv")

немедленно возвращает DataFrame.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...