Вопрос по Apache Spark Внутренняя работа по данной программе - PullRequest
0 голосов
/ 29 мая 2020

Как Spark работает внутри данной программы. Я создал jar из объекта / класса ниже, а затем после отправки каждый метод будет считывать 30 ГБ данных из hdfs / aws -s3 один за другим. здесь диспетчер кластера может быть автономным / пряжей.

У меня есть 1 главный узел и 2 рабочих узла, каждый из которых имеет 3 ГБ памяти, поэтому всего 9 ГБ памяти для чтения 30 ГБ данных. как искра работает в этом сценарии, сколько исполнителей создает, как этапы и задачи создают для этого.

object Mathematics {
    def main(args: Array[String]) {
        addition()
        subtraction()
        division()
        multiplication()
    }

    def addition() {
        read entire data  from hdfs/s3 and perform addition & some aggregation
        ....
        ....
    }

    def subtraction() {
        read entire data from hdfs/s3 and perform subtraction & some aggregation
        ....
        ....
    }
    def division() {
        read entire data from hdfs/s3 and perform division & some aggregation
        ....
        ....
    }
    def multiplication() {
        read entire data from hdfs/s3 and perform multiplication & some aggregation
        ....
        ....
    }

}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...