Question

У меня есть DataFrame, в котором он будет содержать имя таблицы с данными.Мне нужно зациклить DataFrame с именем столбца таблицы.Есть ли лучший способ сделать это сначала с помощью сбора?

val tablename:Array[String] = df1.select("msgname").distinct().rdd.map(row=>row.getString(0).trim).collect

tablename.foreach{table =>
  //print(table)
  //val columns:Array[String] = df1.filter(s"msgname = '$table'").select("columns").distinct().rdd.map(row=>row.toString()).collect
  df1.filter(s"msgname = '$table'").select("record_data").write.saveAsTable(s"$table")
    //.toDF(columns:_*).show()
    //.toDF(columns:_*).show()
}

Raphael Roth · Answer 1 · 25 сентября 2019

2 идеи для повышения производительности: кешировать задания df1 и / или запускать параллельные искры, например, используя параллельные коллекции, например:

df1.cache()    
val tablename:Array[String] = df1.select(trim("msgname")).distinct().as[String].collect

tablename
.par // enable parallel execution
.foreach{table =>
     df1.filter(s"msgname ='$table'").select("record_data").write.saveAsTable(s"$table")
}

Зацикливание кадра данных из столбца из той же таблицы в Scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Зацикливание кадра данных из столбца из той же таблицы в Scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов