Вы должны перераспределить данные, когда дело доходит до огромных данных
В искровой единице параллелизма есть раздел
Dataset<Row> result = sparkSession.read()
.option("escape", "\"")
result.repartition(5 * 5 *3) ( number of executors i.e.5 * cores i.e. 5 * replicationfactor i.e. 2-3) i.e. 25 might be working for you to ensure uniform disribution data.
Перекрестная проверка, сколько существует записей на раздел import org.apache.spark.sql.functions.spark_partition_id
val mycsvdata =
|rank,freq,Infinitiv,Unreg,Trans,"Präsens_ich","Präsens_du","Präsens_er, sie, es","Präteritum_ich","Partizip II","Konjunktiv II_ich","Imperativ Singular","Imperativ Plural",Hilfsverb
val csvdf: DataFrame = spark.read.option("header", true)
.option("header", true)
println("all the 4 records are in single partition 0 ")
import org.apache.spark.sql.functions.spark_partition_id
println( "now divide data... 4 records to 2 per partition")
|rank|freq |Infinitiv|Unreg|Trans|Präsens_ich|Präsens_du|Präsens_er, sie, es|Präteritum_ich|Partizip II|Konjunktiv II_ich|Imperativ Singular|Imperativ Plural|Hilfsverb|
|3 |3796784|sein |null |null |bin |bist |ist |war |gewesen |wäre |sei |seid |sein |
|8 |1618550|haben |null |null |habe |hast |hat |hatte |gehabt |hätte |habe |habt |haben |
|10 |1379496|einen |null |null |eine |einst |eint |einte |geeint |einte |eine |eint |haben |
|12 |948246 |werden |null |null |werde |wirst |wird |wurde |geworden |würde |werde |werdet |sein |
| 0| 4|
| 1| 2|
| 0| 2|