Допустим, у вас есть фрейм данных df
размером 500, отсортированный по столбцу time
.
Простой способ сделать это - использовать лимит для обучающего набора и сделать то же самое на обращенном кадре данных для тестового набора.
from pyspark.sql.functions import desc
train = df.limit(300)
test = df.orderBy(desc("time")).limit(200).orderBy("time")