Не ясно, куда добавить --conf spark.jars.packages = org. apache .spark: spark-avro_2.11: 2.4.4 in aws шаблон облачной информации yaml - PullRequest
1 голос
/ 07 февраля 2020

Я создал клей для конвертации авро файлов в паркет. Для этого я импортирую

--conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4 

в файл yaml. Но работа по-прежнему не выполняется, поскольку кадры данных не создаются. Отображается следующая ошибка: AnalysisException ('Не удалось найти источник данных: org. apache .spark. sql .avro. Avro является встроенным, но внешним источником данных начиная с Spark 2.4.')

Мой шаблон yml выглядит следующим образом:

 DefaultArguments:
    '--job-language': 'python'
    '--job-bookmark-option': 'job-bookmark-disable'
    '--enable-metrics': ''
    '--conf': 'spark.executor.memoryOverhead=1g --conf spark.maxRemoteBlockSizeFetchToMem=2g --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4'
    '--JOB_NAME': !If [IsPythonShell, !Ref GlueJobName, !Ref "AWS::NoValue"]

Мне неясно, где я иду не так. Я думаю, я помещаю пакет conf в неправильное место.

Пожалуйста, помогите.

1 Ответ

0 голосов
/ 11 февраля 2020

Один из способов исправить это - использовать --extra-jars ( Документация на github ) и ссылаться на файл jar в S3. Конечно, вам придется хранить банку в S3. Я не думаю, что Glue будет загружать какие-либо банки, как это делает обычная свеча.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...