Как настроить Spark вне виртуальной машины HDP для отправки в кластер виртуальных машин? - PullRequest
0 голосов
/ 23 марта 2020

Я использую Hortonworks HDP на VirtualBox (на Windows 10).

Я установил Apache Spark на моем физическом хосте.

Я хотел бы настроить его так, чтобы при отправке с --master yarn он выполнялся в кластере HDP на виртуальной машине.

Что я пробовал:

  1. Я скопировал core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml в папку и установил ее в качестве HADOOP_CONF_DIR системной переменной среды.

  2. Так как я не могу редактировать c:\windows\system32\drivers\etc\hosts Я вручную заменил все экземпляры sandbox.hortonworks.com на 127.0.0.1

  3. Я пытался работать в режимах cluster и client, похоже чтобы получить те же результаты, что и в режиме кластера, я не вижу вывод консоли.

  4. Некоторое прибегание к поиску подсказало мне здесь в разделе "Открыть порт для пользовательского использования" но на моей виртуальной машине нет deploy-scripts/assets/ в /sandbox.

Я почти уверен (предполагая, что это возможно), мне не нужны все существующие конфигурации, но я общее начало er.

При отправке с использованием --master yarn кажется, что все начинается, как ожидается, до тех пор, пока не достигнет RMProxy:98 - Connecting to ResourceManager at /127.0.0.1:8050, в котором он просто останется навсегда.

Я попытался открыть порт 8050 в VirtualBox - не помогло, что, по-видимому, объясняется:

Текущая архитектура использует NGINX в качестве обратного прокси-сервера и открывает только необходимые порты.

...