Question

Я хочу сделать разделение теста поезда на отсортированный фрейм данных Pyspark по времени. Предположим, что первые 300 строк будут в наборе поездов, а следующие 200 строк в тестовом разбиении.

Я могу выбрать первые 300 строк с помощью -

train = df.show(300)

но как выбрать последние 200 строк в кадре данных Pyspark?

Oli · Answer 1 · 13 марта 2019

Допустим, у вас есть фрейм данных df размером 500, отсортированный по столбцу time.

Простой способ сделать это - использовать лимит для обучающего набора и сделать то же самое на обращенном кадре данных для тестового набора.

from pyspark.sql.functions import desc
train = df.limit(300)
test = df.orderBy(desc("time")).limit(200).orderBy("time")

Как обучить тестировать данные разделенных временных рядов в Pyspark Dataframe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обучить тестировать данные разделенных временных рядов в Pyspark Dataframe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы