Как приготовить (предварительно установить) банку и вену в кластер искровой пряжи - PullRequest
0 голосов
/ 06 мая 2019

Обычно мы добавляем параметры в spark-submit для загрузки jar и venv (скажем, zip через conda pack здесь), в этом случае мы просто

spark-submit --jar xx.jar --archive xx.tar.gz#xx

и видим в журнале uploading xxx to HDFS ...

Это будет стоить много времени, если баночка или полость большого размера, и каждый раз, когда мы отправляем работу, время будет стоить

Предположим, кластер пряжи подготовлен для обычных работ (другими словами, каждая работа использует один и тот же jar и venv), есть ли какой-либо метод для предварительной подготовки jar и venv перед тем, как мы отправим какие-либо задания.

Если да, то как?где поставить?где время в основном проводит?Если я буду использовать путь hdfs (например, --jar hdfs://.../xx.jar), сэкономит ли это большую часть времени?

...