Как прочитать файл avro с помощью pyspark - PullRequest
1 голос
/ 23 апреля 2020

Я пытаюсь прочитать файл avro в блокноте jupyter, но столкнулся с этой проблемой.

Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.avro.AvroFileFormat.DefaultSource

и я не могу понять, откуда взялась эта зависимость.

import findspark
findspark.init()

import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.appName("readavro").master("local").getOrCreate()

result = spark.read.format('com.databricks.spark.avro').load("file:///C:/Downloads/part-r-00000.avro")

1 Ответ

1 голос
/ 23 апреля 2020

Убедитесь, что вы добавили банку org.apache.spark:spark-avro_2.12:2.4.5 в ваш путь к классам. Поскольку модуль spark-avro является внешним, в DataFrameReader или DataFrameWriter отсутствует API .avro. Поэтому попробуйте

result = spark.read.format('avro').load("file:///C:/Downloads/part-r-00000.avro")

включить авро-зависимость

$ bin/spark-shell --packages com.databricks:spark-avro_2.12:2.4.5
...