Поддержка больших данных на клиенте говорит мне изменить режим развертывания моего приложения с client на cluster . Идея заключается в том, что одно приложение, работающее в локальном режиме, может отнимать слишком много ресурсов на компьютере.
Мне не удалось найти никаких ссылок в документации Spark на потребление этого ресурса, и мои задания были полностью переработаны для локального запуска из-за большого количества * .json и * .sql, необходимых для правильной работы. Я понимаю, что документы Spark таковы, что драйвер отправляет все задачи в кластер и координирует только его последовательности и статусы, и поэтому мне не нужно беспокоиться об этом при использовании ресурсов.
Это правильно? Может кто-нибудь указать мне несколько документов, где я могу узнать больше об этом?
В моей среде работает Spark 2.1.1.