Использование KuduContext в pyspark - PullRequest
0 голосов
/ 08 ноября 2018

Я бы хотел использовать куду с pyspark. Хотя я могу использовать его с:

sc.read.format('org.apache.kudu.spark.kudu').option('kudu.master',"hdp1:7051").option('kudu.table',"impala::test.z_kudu_tab").load() 

Я не могу найти способ импортировать KuduContext. Я работаю в блокноте Jupyter и импортирую его с помощью:

os.environ["PYSPARK_SUBMIT_ARGS"] = "--driver-memory 2g --packages com.ibm.spss.hive.serde2.xml:hivexmlserde:1.0.5.3 --packages org.apache.kudu:kudu-spark2_2.11:1.7.0 pyspark-shell"

Мой не рабочий код:

kudu_Context = KuduContext("es2-hdp1:7051", sc)

Умирает с ошибкой:

NameError: name 'KuduContext' is not defined

Я также пробовал:

kudu_context = sc._jvm.org.apache.kudu.spark.kudu.KuduContext("hdp1:7051", sc.sparkContext)

, который умирает с ошибкой:

AttributeError: 'SparkContext' object has no attribute '_get_object_id'
...