Question

Я пытаюсь ограничить вывод данных из фрейма перед записью на диск.Можно использовать

df.limit(n)

, но этот встроенный limit вызывает дорогостоящие тасования.Я также нашел хакерский способ обойтись с

df.rdd.zipWithIndex.filter(_._2 < fetchSize).map(_._1)

, но я боюсь, что это приведет к ненужным накладным расходам из-за дополнительного выполнения zipWithIndex, filter и map.Есть ли лучший способ использовать встроенный limit без перемешивания данных?Спасибо.

Dataframe.limit (n) в Scala Spark вызывает перетасовку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Dataframe.limit (n) в Scala Spark вызывает перетасовку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов