Я набор данных шуток Набор данных 2 ( jester_dataset_2.zip ) из проекта Jester , и я хотел бы разделить шутки на группы шуток с аналогичным рейтингом и визуализироватьрезультаты соответственно.
Данные выглядят следующим образом
> str(tabulka)
'data.frame': 1761439 obs. of 3 variables:
$ User : int 1 1 1 1 1 1 1 1 1 1 ...
$ Joke : int 5 7 8 13 15 16 17 18 19 20 ...
$ Rating: num 0.219 -9.281 -9.281 -6.781 0.875 ...
Вот подмножество Набор данных 2 .
> head(tabulka)
User Joke Rating
1 1 5 0.219
2 1 7 -9.281
3 1 8 -9.281
4 1 13 -6.781
5 1 15 0.875
6 1 16 -9.656
Я обнаружил, что яне может использовать ANOVA, так как однородность не то же самое.Поэтому я использую метод Крускала-Уоллиса из пакета Agricola в R.
KWtest <- with ( tabulka , kruskal ( Rating , Joke ))
Вот группы.
> head(KWtest$groups)
trt means M
1 53 1085099 a
2 105 1083264 a
3 89 1077435 ab
4 129 1072706 b
5 35 1070016 bc
6 32 1062102 c
Дело в том, что я не знаю, как визуализировать шуткугруппы соответственно.Я использую boxplot, чтобы показать доверительные интервалы для каждой шутки.
barvy <- c ("yellow", "grey")
boxplot (Rating ~ Joke, data = tabulka,
col = barvy,
xlab = "Joke",
ylab = "Rating",
ylim=c(-7,7))
Было бы неплохо как-то покрасить каждую коробку (каждую шутку) соответствующим цветом в соответствии с цветом, заданным тестом KW.
Как я мог это сделать?Или есть какой-то лучший способ найти лучшие и худшие шутки в наборе данных?