Я пытаюсь ограничить вывод данных из фрейма перед записью на диск.Можно использовать
df.limit(n)
, но этот встроенный limit
вызывает дорогостоящие тасования.Я также нашел хакерский способ обойтись с
df.rdd.zipWithIndex.filter(_._2 < fetchSize).map(_._1)
, но я боюсь, что это приведет к ненужным накладным расходам из-за дополнительного выполнения zipWithIndex
, filter
и map
.Есть ли лучший способ использовать встроенный limit
без перемешивания данных?Спасибо.