Запуск Spark2.3 в Kubernetes с удаленной зависимостью от S3 - PullRequest
0 голосов
/ 29 апреля 2018

Я бегу spark-submit для запуска в Kubernetes (Spark 2.3). Моя проблема в том, что InitContainer не загружает мой файл jar, если он указан как путь s3a: //, но работает, если я помещаю свой jar на HTTP-сервер и использую http: //. Разумеется, драйвер спуска не работает, потому что он не может найти мой класс (а файл jar на самом деле отсутствует на изображении).

Я пробовал два подхода:

  1. указание пути s3a к jar в качестве аргумента для spark-submit и
  2. с использованием --jars для указания местоположения файла jar на s3a, но оба сбоя происходят одинаково.

edit: также с использованием local: ///home/myuser/app.jar не работает с такими же симптомами.

При неудачном запуске (зависимость от s3a) я вошел в контейнер и обнаружил, что каталог / var / spark-data / spark-jars / пуст. Журналы init-контейнера не указывают ни на какой тип ошибки.

Вопросы:

  1. Как правильно указать удаленные зависимости на S3A?
  2. S3A еще не поддерживается? Только http (s)?
  3. Есть ли какие-либо предложения по дальнейшей отладке InitContainer, чтобы определить, почему загрузка не происходит?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...