Dataframe.limit (n) в Scala Spark вызывает перетасовку - PullRequest
0 голосов
/ 31 января 2019

Я пытаюсь ограничить вывод данных из фрейма перед записью на диск.Можно использовать

df.limit(n)

, но этот встроенный limit вызывает дорогостоящие тасования.Я также нашел хакерский способ обойтись с

df.rdd.zipWithIndex.filter(_._2 < fetchSize).map(_._1)

, но я боюсь, что это приведет к ненужным накладным расходам из-за дополнительного выполнения zipWithIndex, filter и map.Есть ли лучший способ использовать встроенный limit без перемешивания данных?Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...