Итак, я запускаю Apache Spark на двух контейнерах (один мастер и один работник). Я делаю это, вытягивая Docker образ из gettyimages, который предлагает Debian: растягивающийся контейнер Spark. Файл docker -compose начинается следующим образом:
version: "3.7"
services:
master:
image: gettyimages/spark
command: bin/spark-class org.apache.spark.deploy.master.Master -h master
hostname: master
Таким образом, я успешно могу запустить свой кластер и запустить несколько примеров приложений, но когда я пытаюсь запустить более сложный пример, включающий машинное обучение Я понимаю, что мои контейнеры не имеют numpy. Я должен вручную выполнить "pip install numpy" внутри обоих моих контейнеров. Есть ли способ сделать это через сам файл docker-compose и связанные с ним зависимости? Как использовать существующее изображение в качестве основы для более сложных рецептов (в частности, с помощью docker -compose)?
Это базовое изображение
https://hub.docker.com/r/gettyimages/spark