Как сделать RDD из первых n элементов другого RDD в Spark? - PullRequest
0 голосов
/ 13 октября 2019

Учитывая RDD в pyspark, я хотел бы создать новый RDD, который содержит (копирует) только свои первые n элементов, что-то вроде:

n=100 rdd2 = rdd1.limit(n)

, за исключением RDDне имеет метода limit(), как в DataFrame.

Обратите внимание, что я не хочу собирать результат, результат все равно должен быть СДР, поэтому я не могу использовать RDD.take().

Я использую Pyspark 2,44.

1 Ответ

1 голос
/ 13 октября 2019

Вы можете преобразовать СДР в предел DF и преобразовать его обратно

rdd1.toDF().limit(n).rdd
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...