R - Выберите строки для случайной выборки значений столбцов? - PullRequest
5 голосов
/ 10 мая 2011

Как выбрать все строки для случайной выборки значений столбцов?

У меня есть кадр данных, который выглядит следующим образом:

tag  weight

R007     10
R007     11
R007      9
J102     11
J102      9
J102     13
J102     10
M942      3
M054      9
M054     12  
V671     12
V671     13
V671      9
V671     12
Z990     10
Z990     11

ЭтоВы можете выполнить репликацию, используя ...

weights_df <- structure(list(tag = structure(c(4L, 4L, 4L, 1L, 1L, 1L, 1L, 
3L, 2L, 2L, 5L, 5L, 5L, 5L, 6L, 6L), .Label = c("J102", "M054", 
"M942", "R007", "V671", "Z990"), class = "factor"), value = c(10L, 
11L, 9L, 11L, 9L, 13L, 10L, 3L, 9L, 12L, 12L, 14L, 5L, 12L, 11L, 
15L)), .Names = c("tag", "value"), class = "data.frame", row.names = c(NA, 
-16L))

Мне нужно создать фрейм данных, содержащий все строки из вышеупомянутого фрейма данных для двух случайно выбранных тегов.Допустим, теги R007 и M942 выбираются случайным образом, мой новый фрейм данных должен выглядеть следующим образом:

tag  weight

R007     10
R007     11
R007      9
M942      3

Как мне это сделать?

Я знаю, что могу создать список из двух случайныхтеги вроде этого:

library(plyr)
tags <- ddply(weights_df, .(tag), summarise, count = length(tag))
set.seed(5464)
tag_sample <- tags[sample(nrow(tags),2),]
tag_sample

В результате ...

   tag count
4 R007     3
3 M942     1

Но я просто не знаю, как использовать это для подмножества моего исходного кадра данных.

Ответы [ 2 ]

7 голосов
/ 10 мая 2011

это то, что вы хотите?

subset(weights_df, tag%in%sample(levels(tag),2))
2 голосов
/ 10 мая 2011

Если ваш data.frame имеет имя dfrm, тогда будет выбрано 100 случайных tag s

dfrm[ sample(NROW(dfrm), 100), "tag" ]   # possibly with repeats

Если, с другой стороны, вам нужен кадр данных с такими же столбцами (возможно, с повторениями):

samp <- dfrm[ sample(NROW(dfrm), 100),  ]  # leave the col name entry blank to get all

Третий вариант ... вы хотите, чтобы 100 различных тегов были случайными, но не с вероятностью, взвешенной до частоты:

samp.tags <- unique(dfrm$tag)[ sample(length(unique(dfrm$tag)), 100]

Редактировать: с исправленным вопросом; один из них:

 subset(dfrm, tag %in% c("R007", "M942") )

Или:

dfrm[dfrm$tag %in% c("R007", "M942"), ]

Или:

dfrm[grep("R007|M942", dfrm$tag), ]
...