Включить pySpark на Airflow для Docker - PullRequest
0 голосов
/ 28 января 2020

Я использую Airflow на Docker, используя pucker/docker-airflow image

docker run -d -p 8080:8080 puckel/docker-airflow webserver   

Как сделать доступным pySpark?

Моя цель - использовать Spark в моей группе DAG Задачи.

Любой совет?

1 Ответ

0 голосов
/ 30 января 2020

Создайте requirements.txt, добавьте все зависимости в этот файл и затем выполните: https://github.com/puckel/docker-airflow#install -custom- python -package

- Create a file "requirements.txt" with the desired python modules
- Mount this file as a volume -v $(pwd)/requirements.txt:/requirements.txt (or add it as a volume in docker-compose file)
- The entrypoint.sh script execute the pip install command (with --user option)
...