SparkContext "не имеет атрибута" ошибка конструктора - PullRequest
0 голосов
/ 23 сентября 2019

Я пытаюсь зарегистрировать переменную из dataframe в pyspark.код:

from pyspark.sql import SQLContext
from pyspark import SparkContext
sc = SparkContext.builder.appName("Python Spark").getOrCreate()
sqlCtx = SQLContext()
data = sqlCtx.read.csv("D:/Customers_v01.csv", header=True, inferSchema=True)
data.registerTempTable("data")
spark.sql("SELECT * from data").show()

, но выдается ошибка, поскольку AttributeError: тип объекта SparkContext не имеет атрибута builder.

Данные выглядят как

CM,503004,(d$όνυ$F|'.h*Λ!ψμ=(.ξ;      ,.ʽ|!3-2-704              ,.ʽ/8μAθr                    ,(d$όνυ<<*έθr                ,C51,CN-511450

Я что-то пропустил.пожалуйста помогите

1 Ответ

0 голосов
/ 23 сентября 2019

Вы должны использовать этот способ.

from pyspark.sql import SparkSession

spark = SparkSession \
     .builder \
     .appName("Python Spark SQL basic example") \
     .getOrCreate()   

После того, как вы создали сеанс спарк, вы можете читать CSV таким образом.

data = spark.read.csv("D:/Customers_v01.csv", header=True, inferSchema=True, encoding='ISO-8859-1')
...