sc не определен при запуске исполняемого кода Python - PullRequest
0 голосов
/ 03 января 2019

Я запускаю следующий код в spark submit (Spark 2.3.0) и получаю «NameError: имя 'sc' не определено"

    from pyspark.sql import SQLContext
    from pyspark.sql.functions import col, lit
     from pyspark.sql.types import *

    if __name__  == "__main__":
      sc=SparkContext()

      sqlContext = SQLContext(sc)
      forecast = sc.read.load('/user/gg/LV_hadoop_example.csv', 
      format='csv', header='true', inferSchema='true', sep=',')
      forecast = forecast.filter(forecast['Total_scaled_forecast'] > 0)
      forecast.saveAsTextFile("word_count11.txt")

1 Ответ

0 голосов
/ 04 января 2019

В spark 2.3.0, правильный способ загрузки CSV-файла, используя:

from pyspark.sql import SparkSession

# initiate spark instance
spark = SparkSession.builder
            .master("local")
            .appName("abc")
            .getOrCreate()

# read csv file
df = spark.read.csv('/user/gg/LV_hadoop_example.csv')

Проверьте документацию для получения дополнительных примеров.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...