Как я могу отсортировать Rdd [(Int, (val1, val2))] по val2, когда только SortByKey доступен в качестве опции? - PullRequest
0 голосов
/ 13 сентября 2018

У меня есть Rdd[(Int, (val1, val2))], который я хочу отсортировать по val2, но единственный доступный вариант - SortByKey. SortBy доступен только в старых scala версиях? Есть ли другой вариант, кроме как забрать его водителю?

В коде я делаю только:

val nonslack = slacks.filter(x=> Vlts.contains(x._1))

, где Vlts равно Array[Int], а slacks равно rdd, считано из файла.

1 Ответ

0 голосов
/ 13 сентября 2018

В RDD есть сортировка:

val rdd = spark.sparkContext.parallelize(Seq(("one", ("one" -> 1)), ("two", ("two" -> 2)), ("three", ("three" -> 3))))

rdd.sortBy(_._2._2).collect().foreach(println(_))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...