Сокращение времени запуска Apache Spark - PullRequest
0 голосов
/ 17 сентября 2018

Я использую автономный Spark кластер и отправляю свои приложения (написанные в SparkR), используя spark-submit в режиме клиента.У меня есть набор приложений, которые я должен запускать в соответствии с пользовательскими данными, поэтому я не могу их поддерживать.Каждый раз для подачи заявки и начала обработки данных требуется 15-20 секунд.

Можно ли как-нибудь сократить это время?Я читал о , имеющем веб-сервер на машине с драйверами, но не уверен, как это можно сделать.Кроме того, я не использую какой-либо диспетчер кластеров (например, YARN), а просто отдельный кластер.

Кроме того, влияют ли на время запуска ресурсы на клиенте или кластере, такие как ядра ЦП и память? *

1 Ответ

0 голосов
/ 18 сентября 2018

Использование сервера заданий Spark для совместного использования SparkContexts между приложениями может помочь вам сократить время запуска.(Я не уверен, что вам это нужно, поскольку время запуска ~ 20 секунд кажется довольно низким.)

Популярные серверы заданий Spark, обеспечивающие совместное использование контекста:

Кроме того, делайте ресурсы на клиенте или кластере, такие как ЦПядра и память влияют на время запуска?

Не совсем.Доступные ресурсы должны влиять только на время выполнения вашего приложения.

...