Учитывая RDD в pyspark, я хотел бы создать новый RDD, который содержит (копирует) только свои первые n элементов, что-то вроде:
n=100
rdd2 = rdd1.limit(n)
, за исключением RDDне имеет метода limit()
, как в DataFrame.
Обратите внимание, что я не хочу собирать результат, результат все равно должен быть СДР, поэтому я не могу использовать RDD.take()
.
Я использую Pyspark 2,44.