Обычно мы добавляем параметры в spark-submit
для загрузки jar и venv (скажем, zip через conda pack
здесь), в этом случае мы просто
spark-submit --jar xx.jar --archive xx.tar.gz#xx
и видим в журнале uploading xxx to HDFS ...
Это будет стоить много времени, если баночка или полость большого размера, и каждый раз, когда мы отправляем работу, время будет стоить
Предположим, кластер пряжи подготовлен для обычных работ (другими словами, каждая работа использует один и тот же jar и venv), есть ли какой-либо метод для предварительной подготовки jar и venv перед тем, как мы отправим какие-либо задания.
Если да, то как?где поставить?где время в основном проводит?Если я буду использовать путь hdfs (например, --jar hdfs://.../xx.jar
), сэкономит ли это большую часть времени?