/ 17 января 2020

Мы попытались использовать инструкции и указания на этой странице документации Dask: https://yarn.dask.org/en/latest/aws-emr.html для развертывания Dask при подготовке AWS управляемого EMR кластера Spark. Мы обнаружили, что действие bootstrap, представленное по ссылке выше, развертывает компоненты Dask только на главном узле, а не на рабочих. В идеале YARN будет развертывать необходимые пакеты для Dask для всех работников.

Я предоставил код действия bootstrap ниже.

Кто-нибудь еще видел это и / или может порекомендовать, как решить эту проблему?

Bootstrap код действия следующий:

HELP="Usage: bootstrap-dask [OPTIONS]

Example AWS EMR Bootstrap Action to install and configure Dask and Jupyter

By default it does the following things:
- Installs miniconda
- Installs dask, distributed, dask-yarn, pyarrow, and s3fs. This list can be
  extended using the --conda-packages flag below.
- Packages this environment for distribution to the workers.
- Installs and starts a jupyter notebook server running on port 8888. This can
  be disabled with the --no-jupyter flag below.

    --jupyter / --no-jupyter    Whether to also install and start a Jupyter
                                Notebook Server. Default is True.
    --password, -pw             Set the password for the Jupyter Notebook
                                Server. Default is 'dask-user'.
    --conda-packages            Extra packages to install from conda.

set -e

# Parse Inputs. This is specific to this script, and can be ignored
# -----------------------------------------------------------------

while [[ $# -gt 0 ]]; do
    case $1 in
            echo "$HELP"
            exit 0
            while [[ $# -gt 0 ]]; do
                case $1 in
            echo "error: unrecognized argument: $1"
            exit 2

# -----------------------------------------------------------------------------
# 1. Check if running on the master node. If not, there's nothing do.
# -----------------------------------------------------------------------------
grep -q '"isMaster": true' /mnt/var/lib/info/instance.json \
|| { echo "Not running on master node, nothing to do" && exit 0; }

# -----------------------------------------------------------------------------
# 2. Install Miniconda
# -----------------------------------------------------------------------------
echo "Installing Miniconda"
curl https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh -o /tmp/miniconda.sh
bash /tmp/miniconda.sh -b -p $HOME/miniconda
rm /tmp/miniconda.sh
echo -e '\nexport PATH=$HOME/miniconda/bin:$PATH' >> $HOME/.bashrc
source $HOME/.bashrc
conda update conda -y

# -----------------------------------------------------------------------------
# 3. Install packages to use in packaged environment
# We install a few packages by default, and allow users to extend this list
# with a CLI flag:
# - dask-yarn >= 0.7.0, for deploying Dask on YARN.
# - pyarrow for working with hdfs, parquet, ORC, etc...
# - s3fs for access to s3
# - conda-pack for packaging the environment for distribution
# - ensure tornado 5, since tornado 6 doesn't work with jupyter-server-proxy
# -----------------------------------------------------------------------------
echo "Installing base packages"
conda install \
-c conda-forge \
-y \
-q \
dask-yarn>=0.7.0 \
pyarrow \
s3fs \
conda-pack \
tornado=5 \

# -----------------------------------------------------------------------------
# 4. Package the environment to be distributed to worker nodes
# -----------------------------------------------------------------------------
echo "Packaging environment"
conda pack -q -o $HOME/environment.tar.gz

# -----------------------------------------------------------------------------
# 5. List all packages in the worker environment
# -----------------------------------------------------------------------------
echo "Packages installed in the worker environment:"
conda list

# -----------------------------------------------------------------------------
# 6. Configure Dask
# This isn't necessary, but for this particular bootstrap script it will make a
# few things easier:
# - Configure the cluster's dashboard link to show the proxied version through
#   jupyter-server-proxy. This allows access to the dashboard with only an ssh
#   tunnel to the notebook.
# - Specify the pre-packaged python environment, so users don't have to
# - Set the default deploy-mode to local, so the dashboard proxying works
# - Specify the location of the native libhdfs library so pyarrow can find it
#   on the workers and the client (if submitting applications).
# ------------------------------------------------------------------------------
echo "Configuring Dask"
mkdir -p $HOME/.config/dask
cat <<EOT >> $HOME/.config/dask/config.yaml
    link: "/proxy/{port}/status"

  environment: /home/hadoop/environment.tar.gz
  deploy-mode: local

      ARROW_LIBHDFS_DIR: /usr/lib/hadoop/lib/native/

      ARROW_LIBHDFS_DIR: /usr/lib/hadoop/lib/native/
# Also set ARROW_LIBHDFS_DIR in ~/.bashrc so it's set for the local user
echo -e '\nexport ARROW_LIBHDFS_DIR=/usr/lib/hadoop/lib/native' >> $HOME/.bashrc

# -----------------------------------------------------------------------------
# 7. If Jupyter isn't requested, we're done
# -----------------------------------------------------------------------------
if [[ "$JUPYTER" == "false" ]]; then
    exit 0

# -----------------------------------------------------------------------------
# 8. Install jupyter notebook server and dependencies
# We do this after packaging the worker environments to keep the tar.gz as
# small as possible.
# We install the following packages:
# - notebook: the Jupyter Notebook Server
# - ipywidgets: used to provide an interactive UI for the YarnCluster objects
# - jupyter-server-proxy: used to proxy the dask dashboard through the notebook server
# -----------------------------------------------------------------------------
if [[ "$JUPYTER" == "true" ]]; then
    echo "Installing Jupyter"
    conda install \
    -c conda-forge \
    -y \
    -q \
    notebook \
    ipywidgets \

# -----------------------------------------------------------------------------
# 9. List all packages in the client environment
# -----------------------------------------------------------------------------
echo "Packages installed in the client environment:"
conda list

# -----------------------------------------------------------------------------
# 10. Configure Jupyter Notebook
# -----------------------------------------------------------------------------
echo "Configuring Jupyter"
mkdir -p $HOME/.jupyter
HASHED_PASSWORD=`python -c "from notebook.auth import passwd; print(passwd('$JUPYTER_PASSWORD'))"`
cat <<EOF >> $HOME/.jupyter/jupyter_notebook_config.py
c.NotebookApp.password = u'$HASHED_PASSWORD'
c.NotebookApp.open_browser = False
c.NotebookApp.ip = ''

# -----------------------------------------------------------------------------
# 11. Define an upstart service for the Jupyter Notebook Server
# This sets the notebook server up to properly run as a background service.
# -----------------------------------------------------------------------------
echo "Configuring Jupyter Notebook Upstart Service"
cat <<EOF > /tmp/jupyter-notebook.conf
description "Jupyter Notebook Server"
start on runlevel [2345]
stop on runlevel [016]
respawn limit unlimited
exec su - hadoop -c "jupyter notebook" >> /var/log/jupyter-notebook.log 2>&1
sudo mv /tmp/jupyter-notebook.conf /etc/init/

# -----------------------------------------------------------------------------
# 12. Start the Jupyter Notebook Server
# -----------------------------------------------------------------------------
echo "Starting Jupyter Notebook Server"
sudo initctl reload-configuration
sudo initctl start jupyter-notebook

/ 17 января 2020

Сценарий, скопированный с веб-сайта dask, является условным действием boostrap.

Следующая строка позволяет запускать его только на главном узле:

grep -q '"isMaster": true' /mnt/var/lib/info/instance.json \
|| { echo "Not running on master node, nothing to do" && exit 0; }

Проверяется instance.json файл для записи "isMaster". Если значение равно false, сценарий завершается с 0.

В идеале YARN будет развертывать необходимые пакеты для Dask для всех рабочих.

Это действительно зависит от вашего варианта использования. Я не развернул dask в многоузловом кластере. Например, Spark позволяет указывать сжатые зависимости при отправке задач, поэтому не обязательно устанавливать их.

Установка пакетов на всех узлах упрощает пакетирование задания. Однако можно столкнуться с конфликтующими зависимостями довольно быстро, так как люди запускают совершенно не связанные задания с каждым собственным набором зависимостей. Можно также c запустить несколько clsuters для каждого задания.

Если вы раскомментируете строку, код будет выполняться на всех узлах. Однако, возможно, вы хотите, чтобы на узлах были установлены только некоторые зависимости, а на мастере было установлено больше персонала. В этом случае вы можете выполнить несколько действий начальной загрузки.

Например, не требуется устанавливать и запускать персонал ноутбука jupyter на каждом узле.

Руководство по работе с пряжей предлагает предоставить архивную среду при отправке. Таким образом, текст написан так, чтобы работать только на главном узле.
