Question

Если бы у меня был фрейм данных с 100 строками, и я хотел разделить данные на тестовые и обучающие данные с коэффициентом разделения 0,7, как бы я разделил это, но не случайно? Например, я хочу, чтобы первые 70% были одним чанком, а последние 30% - другим. Чанк 1:

row     example
1       a
2       b
.
.
.
68      a3
69      a4
70      a5

Чанк 2:

row     example
71       a6
72       a7
.
.
.
98      b1
99      b2
100     b3

Я бы не хотел, чтобы в каждом разбиении были случайные строки

tmfmnk · Answer 1 · 24 февраля 2020

Вы можете попробовать:

split(mtcars, 1:nrow(mtcars)/nrow(mtcars) >= 0.7)

Получается 22 и 10 строк соответственно.

ThomasIsCoding · Answer 2 · 24 февраля 2020

Другая базовая опция R, используя split + findInterval

res <- split(df,findInterval(seq(nrow(df)),round(nrow(df)*0.7),rightmost.closed = T))

Как разбить данные на две части с заданным соотношением, НЕ случайно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разбить данные на две части с заданным соотношением, НЕ случайно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов