Pyspark: невозможно импортировать CSV-файл в экземпляр Zeppilin - PullRequest
0 голосов
/ 21 февраля 2019

Я не могу запустить следующую строку кода.

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df_t = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('s3a://Bucket_name/Train - Copy.csv')

выдает ошибку ниже:

AnalysisException: u'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'

Я попытался перезапустить интерпретатор, но без помощи.

Может кто-нибудь помочь с этой проблемой?

Спасибо, Naseer

1 Ответ

0 голосов
/ 21 февраля 2019

Похоже, у вас не работает metastore hive, вы можете попробовать запустить службу

hive --service metastore  

. Вы можете использовать следующий код для чтения csv, который не использует SQLContext

from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Reading CSV") \
    .getOrCreate()

df_t = spark.read.csv('s3a://Bucket_name/Train - Copy.csv',header=True, inferSchema=True)
df_t.show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...