Как я могу избежать тасования в следующем фрейме данных sparkSQL? - PullRequest
0 голосов
/ 01 мая 2018

Должен ли я использовать постоянство или изменить операцию groupBy?

def joinTests(measurements: DataFrame): DataFrame = {

  val df_joined = df.join(measurements, Seq("part_id"))

  logger.info(df_joined.count + " elements found!")

  val df_keep = df_joined.groupBy(col("name"))
    .agg(countDistinct(col("value")).as("count"))
    .filter(col("count") > 1)
    .select(col("name"))
    .dropDuplicates

  df_joined.join(broadcast(df_keep), Seq("name"))
}
...