Итак, вот коробочный график:
![enter image description here](https://i.stack.imgur.com/nZtuI.png)
Как это интерпретировать? Это так плотно внизу, потому что есть много данных? Можно ли что-то истолковать из данных?
[ОБНОВЛЕНИЕ] Я добавил новое изображение, в котором я разместил подмножество фильмов, которые ничего не выиграли, и сравнил сюжет с сюжетом общего среднего, похоже, у коробочного сюжета для не победивших фильмов меньше выбросов? [ОБНОВЛЕНИЕ2] Здесь я добавил два коробочных графика, которые должны представлять средние значения за год (для средних рейтингов) ![enter image description here](https://i.stack.imgur.com/T5EmC.png)
Итак, я не уверен, должны ли они выглядеть так, или я сделал что-то не так в расчетах. Я просто применил группу функций по годам, а затем среднее значение функции. Но я не уверен, является ли среднее значение лучшей функцией в тех случаях, когда числа уже являются средними. Просто хочу убедиться.
Вот т-тест:
![enter image description here](https://i.stack.imgur.com/LQlx7.png)
Здесь я сделал то, что предложил один пользователь (моя интерпретация предложения), и получил другой т-тест результаты.
И мой код:
XX <- replicate(n = 10000, expr = mean(sample(
x = imdb_winners$averageRating, size = 30, replace = TRUE)))
YY <- replicate(n = 10000, expr = mean(sample(
x = imdb_not_winners$averageRating, size = 30, replace = TRUE)))
t.test(XX, YY)
Здесь t-значение очень большое, поэтому мы можем предположить, что награжденные актеры влияют на результаты. Я просто хочу убедиться, что мой код выглядит как le git, а также что может быть лучшей визуализацией для этих данных, что может создать впечатление, что данные отличаются. Спасибо за совет!