Как Spark работает внутри данной программы. Я создал jar из объекта / класса ниже, а затем после отправки каждый метод будет считывать 30 ГБ данных из hdfs / aws -s3 один за другим. здесь диспетчер кластера может быть автономным / пряжей.
У меня есть 1 главный узел и 2 рабочих узла, каждый из которых имеет 3 ГБ памяти, поэтому всего 9 ГБ памяти для чтения 30 ГБ данных. как искра работает в этом сценарии, сколько исполнителей создает, как этапы и задачи создают для этого.
object Mathematics {
def main(args: Array[String]) {
addition()
subtraction()
division()
multiplication()
}
def addition() {
read entire data from hdfs/s3 and perform addition & some aggregation
....
....
}
def subtraction() {
read entire data from hdfs/s3 and perform subtraction & some aggregation
....
....
}
def division() {
read entire data from hdfs/s3 and perform division & some aggregation
....
....
}
def multiplication() {
read entire data from hdfs/s3 and perform multiplication & some aggregation
....
....
}
}