У меня есть набор данных с такой структурой:
library(data.table)
dt <- data.table(
record=c(1:20),
area=rep(LETTERS[1:4], c(4, 6, 3, 7)),
score=c(1,1:3,2:3,1,1,1,2,2,1,2,1,1,1,1,1:3),
cluster=c("X", "Y", "Z")[c(1,1:3,3,2,1,1:3,1,1:3,3,3,3,1:3)]
)
Я хотел бы объединить данные, чтобы я мог определить наиболее распространенный кластер в каждой области для заданной оценки (например, 1).Я также хотел бы, чтобы некоторые базовые частоты и проценты были рассчитаны так, чтобы результат выглядел примерно так:
dt_summary_for_1_score <- data.table(
area=c("A","B","C","D"),
cluster_mode=c("X","X","X","Z"),
cluster_pct = c(100,66.6,100,80),
cluster_freq = c(2,2,1,4),
record_freq = c(2,3,1,5)
)
В идеале я хотел бы получить решение, которое использует data.table
.Спасибо.