Я использую Hortonworks HDP на VirtualBox (на Windows 10).
Я установил Apache Spark на моем физическом хосте.
Я хотел бы настроить его так, чтобы при отправке с --master yarn
он выполнялся в кластере HDP на виртуальной машине.
Что я пробовал:
Я скопировал core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml
в папку и установил ее в качестве HADOOP_CONF_DIR
системной переменной среды.
Так как я не могу редактировать c:\windows\system32\drivers\etc\hosts
Я вручную заменил все экземпляры sandbox.hortonworks.com
на 127.0.0.1
Я пытался работать в режимах cluster
и client
, похоже чтобы получить те же результаты, что и в режиме кластера, я не вижу вывод консоли.
Некоторое прибегание к поиску подсказало мне здесь в разделе "Открыть порт для пользовательского использования" но на моей виртуальной машине нет deploy-scripts/assets/
в /sandbox
.
Я почти уверен (предполагая, что это возможно), мне не нужны все существующие конфигурации, но я общее начало er.
При отправке с использованием --master yarn
кажется, что все начинается, как ожидается, до тех пор, пока не достигнет RMProxy:98 - Connecting to ResourceManager at /127.0.0.1:8050
, в котором он просто останется навсегда.
Я попытался открыть порт 8050 в VirtualBox - не помогло, что, по-видимому, объясняется:
Текущая архитектура использует NGINX в качестве обратного прокси-сервера и открывает только необходимые порты.