Как обучить тестировать данные разделенных временных рядов в Pyspark Dataframe - PullRequest
0 голосов
/ 13 марта 2019

Я хочу сделать разделение теста поезда на отсортированный фрейм данных Pyspark по времени. Предположим, что первые 300 строк будут в наборе поездов, а следующие 200 строк в тестовом разбиении.

Я могу выбрать первые 300 строк с помощью -

train = df.show(300)

но как выбрать последние 200 строк в кадре данных Pyspark?

1 Ответ

0 голосов
/ 13 марта 2019

Допустим, у вас есть фрейм данных df размером 500, отсортированный по столбцу time.

Простой способ сделать это - использовать лимит для обучающего набора и сделать то же самое на обращенном кадре данных для тестового набора.

from pyspark.sql.functions import desc
train = df.limit(300)
test = df.orderBy(desc("time")).limit(200).orderBy("time")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...