Я использую набор данных по алмазам:
install.packages("ggplot2")
library(ggplot2)
data("diamonds")
, и мне нужно создать фрейм данных, который случайным образом выбирает 100 цен для каждого качества резки (удовлетворительное, хорошее, очень хорошее, премиум, идеальное), котороедаст мне 500 точек данных.У меня возникли некоторые проблемы с доставкой, и любая помощь будет принята с благодарностью!Вот формула, которую я попробовал, но я не могу понять, как включить все подмножества, которые попадают в «cut».
diamonds$price[ sample( diamonds$cut, size=100, replace=FALSE )]
Я также пытался использовать функцию агрегирования, но это, казалось, уводило меня еще дальше от того места, куда я должен был идти.Я уверен, что просто упускаю что-то довольно очевидное, но я очень новичок в этом, и я не могу ничего найти об этом в Интернете.Спасибо!
Благодаря Камилье я смог сделать это с:
Test.1<-diamonds %>%
group_by(cut) %>%
sample_n(size = 100) %>%
count(price)
Сейчас я просто не могу работать с данными, потому что мне нужно найти среднее стандартное отклонениеи т. д. для каждого качества резки.