Question

Я хотел бы использовать свойство параллелизации spark для параллельного вычисления нескольких фреймов данных spark.

Что я делаю: foreach id из IDList (состоящего из более чем 100 000 элементов), я запрашиваю df (id) из базы данных и выполняю алгоритм на df.

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("scTest")
    val sparkContext = new SparkContext(sparkConf)

    val sparkSession = org.apache.spark.sql.SparkSession.builder
      .appName("sparkSessionTest")
      .getOrCreate

    val IDList = List("ID1",...,"ID100000")

    IDList.foreach(idString => {
      val df = executeQuery(idString,sparkContext)
      executeAlgorithm(df, sparkSession)    

    })

это работает, но этот метод выполняет процесс по одному идентификатору после одного.

Как распараллелить процесс, чтобы сделать его более эффективным?Одним из ограничений является то, что мне нужно sparkContext внутри executeQuery и sparSession в executeAlgorithm, и они не сериализуемы.Я запускаю это на кластере пряжи.

Спасибо заранее

user1084563 · Answer 1 · 28 февраля 2019

Если все, что вам нужно - это выполнять задания параллельно, тогда вы можете просто использовать параллельный сбор:

IDList.par.foreach

Более того, если вы хотите контролировать параллелизм количества заданийзапустить сразу, тогда вы можете назначить свой собственный tasksupport параллельному списку, возвращенному из IDList.par.Как только задания будут отправлены параллельно, spark будет использовать свой планировщик для баланса между ними.

вычислить несколько кадров данных параллельно с искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

вычислить несколько кадров данных параллельно с искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов