Как задать путь к файлам в автономном кластере Apache Spark? - PullRequest
0 голосов
/ 22 января 2019

Мне нужны некоторые советы по определению пути к каталогу с большим количеством файлов в Spark.Я установил автономный кластер с одним компьютером в качестве рабочего и другим компьютером в качестве главного, а драйвер - мой локальный компьютер.Я разрабатываю свой код на локальной машине с Python.Я скопировал все файлы в Master и Worker, путь на обеих машинах одинаков (например: / data / test /).Я настроил SparkSession, но теперь я не знаю, как определить путь к каталогу в моем скрипте.Так что моя проблема в том, как сказать Spark, что он может найти данные на обеих машинах в каталоге выше?Другой вопрос для меня, как обращаться с форматами файлов, такими как .mal, как я могу читать в таких файлах?Спасибо за любые подсказки!

1 Ответ

0 голосов
/ 22 января 2019

Когда искровое задание передается водителю (мастеру), мало что происходит

  1. Программа-драйвер создает план выполнения. Он создает несколько этапов, и каждый этап содержит несколько задач.
  2. Диспетчер кластеров распределяет ресурсы и запускает исполнителей из рабочего на основе аргументов при отправке задания.
  3. Задачи передаются исполнителям, которые должны быть выполнены, и водитель следит за выполнением каждой задачи. Ресурсы освобождаются, и исполнители закрываются, когда закрывается sparkContext или завершается область действия прикладной программы.

Драйвер или мастер, на который отправляется искровое задание, нуждается в доступном пути к данным, поскольку он контролирует весь план выполнения. Программа-драйвер и менеджер кластера позаботятся обо всех действиях, выполняемых на рабочем месте. Поскольку задание spark отправляется в master, достаточно указать путь к данным, доступ к которому возможен в spark с главного компьютера.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...