Я создал клей для конвертации авро файлов в паркет. Для этого я импортирую
--conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4
в файл yaml. Но работа по-прежнему не выполняется, поскольку кадры данных не создаются. Отображается следующая ошибка: AnalysisException ('Не удалось найти источник данных: org. apache .spark. sql .avro. Avro является встроенным, но внешним источником данных начиная с Spark 2.4.')
Мой шаблон yml выглядит следующим образом:
DefaultArguments:
'--job-language': 'python'
'--job-bookmark-option': 'job-bookmark-disable'
'--enable-metrics': ''
'--conf': 'spark.executor.memoryOverhead=1g --conf spark.maxRemoteBlockSizeFetchToMem=2g --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4'
'--JOB_NAME': !If [IsPythonShell, !Ref GlueJobName, !Ref "AWS::NoValue"]
Мне неясно, где я иду не так. Я думаю, я помещаю пакет conf в неправильное место.
Пожалуйста, помогите.