Начиная с Spark 2.4.0, можно сохранять как AVRO без внешних банок.Однако я не могу заставить его работать вообще.Мой код выглядит следующим образом:
key = 'filename.avro'
df.write.mode('overwrite').format("avro").save(key)
Я получаю следующую ошибку:
pyspark.sql.utils.AnalysisException: 'Failed to find data source: avro. Avro is built-in but external data source module since Spark 2.4. Please deploy the application as per the deployment section of "Apache Avro Data Source Guide".;'
Поэтому я смотрю на Руководство по источникам данных Apache Avro (https://spark.apache.org/docs/latest/sql-data-sources-avro.html) и оно даетследующий пример:
df=spark.read.format("avro").load("examples/src/main/resources/users.avro")
df.select("name","favorite_color").write.format("avro").save("namesAndFavColors.avro")
То же самое, поэтому я потерян .. У кого-нибудь есть идеи, что не так?