spark = SparkSession.Builder().master(
<master_url>
).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()
df = spark_session.read \
.format("com.databricks.spark.avro") \
.option("mergeSchema", "true") \
.load(<csv_path_1>, <csv_path2>)
здесь df будет фреймом данных spark.
Примечание: - установите пакет jar spark_avro перед запуском этого кода или добавьте нижнюю строку в конфигурацию spark для установки пакета spark-avro.
"spark.jars.packages": "com.databricks:spark-avro_2.11:4.0.0"