Проблемы с чтением авро файлов в блокноте Jupyter с помощью pyspark - PullRequest
0 голосов
/ 16 июня 2019

Я пытаюсь прочитать файл avro в блокноте Jupyter с помощью pyspark.Когда я читаю файл, я получаю сообщение об ошибке.

Я скачал spark-avro_2.11: 4.0.0.jar, я не уверен, где в моем коде я должен вставлять пакет avro.Любые предложения будут хороши.

Это пример кода, который я использую для чтения файла avro

df_avro_example = sqlContext.read.format("com.databricks.spark.avro").load("example_file.avro")

Это ошибка, которую я получаю

AnalysisException: 'Не удалось найти источник данных: com.databricks.spark.avro.Пожалуйста, найдите пакет Avro на http://spark.apache.org/third-party-projects.html;'

1 Ответ

0 голосов
/ 17 июня 2019

скачайте банку в папку и используйте следующий фрагмент кода в приложении pyspark

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /path/tojar/spark-avro_2.11:4.0.0.jar pyspark-shell' 
...