Формат CSV не загружается в спарк-оболочку - PullRequest
1 голос
/ 29 апреля 2020

Используя spark 1.6, я попробовал следующий код:

val diamonds = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/got_own/com_sep_fil.csv")

, который вызвал ошибку

error: not found: value spark

Ответы [ 3 ]

0 голосов
/ 29 апреля 2020

sqlContext является имплицитным объектом SQL contect, который можно использовать для загрузки CSV-файла и использования com.databricks.spark.csv для упоминания в формате CSV-файла

val df = sqlContext.read.format("csv").option("header", "true").option("inferSchema", "true").load("data.csv")
0 голосов
/ 30 апреля 2020

Вам нужно инициализировать экземпляр, используя SQLContext (версия spark <2.0) или SparkSession (версия spark> = 2.0), чтобы использовать методы, предоставляемые Spark.

Чтобы инициализировать экземпляр spark для версии spark <2.0, используйте: </p>

import org.apache.spark.sql._
val spark = new SQLContext(sc)

Для инициализации экземпляра spark для версии spark> = 2.0 используйте:

val spark = new SparkConf().setAppName("SparkSessionExample").setMaster("local")

Для чтения csv с использованием пакета spark 1.6 и базы данных spark-csv: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").load("data.csv")

0 голосов
/ 29 апреля 2020

В оболочке Spark 1.6 вы получаете sc типа SparkContext, а не spark типа SparkSession, если вы хотите получить эту функциональность, вам нужно будет создать экземпляр SqlContext

import org.apache.spark.sql._
val spark = new SQLContext(sc)
...