как распечатать данные структуры spark rdd и сохранить в локальный файл - PullRequest
0 голосов
/ 07 июня 2018

данные rdd - это ключ, формат значения, а значение - это данные структуры. Как я могу распечатать первые 100 данных и сохранить их как локальный файл.

это может быть пользователь rdd.take(10).saveAsTextFile, но этосообщит об ошибке.

1 Ответ

0 голосов
/ 08 июня 2018

Если вы используете take на rdd в качестве

rdd.take(10)

, он вернет вам Array вместо rdd и saveAsTextFile не будет работать с массивом.

Что вы можете сделать, это использовать zipWithIndex для фильтрации и сохранить отфильтрованное как

rdd.zipWithIndex().filter(_._2 < 100).map(_._1).saveAsTextFile("path to the output file")

Здесь _._2 < 100 используется, как вы сказали, что хотите сохранить первые 100 данных

...