Question

Учитывая RDD в pyspark, я хотел бы создать новый RDD, который содержит (копирует) только свои первые n элементов, что-то вроде:

n=100 rdd2 = rdd1.limit(n)

, за исключением RDDне имеет метода limit(), как в DataFrame.

Обратите внимание, что я не хочу собирать результат, результат все равно должен быть СДР, поэтому я не могу использовать RDD.take().

Я использую Pyspark 2,44.

Paul · Answer 1 · 13 октября 2019

Вы можете преобразовать СДР в предел DF и преобразовать его обратно

rdd1.toDF().limit(n).rdd

Как сделать RDD из первых n элементов другого RDD в Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.