Как интерпретировать данный блокпост, когда существует большое количество значений - PullRequest
0 голосов
/ 21 апреля 2020

Итак, вот коробочный график:

enter image description here

Как это интерпретировать? Это так плотно внизу, потому что есть много данных? Можно ли что-то истолковать из данных?

[ОБНОВЛЕНИЕ] Я добавил новое изображение, в котором я разместил подмножество фильмов, которые ничего не выиграли, и сравнил сюжет с сюжетом общего среднего, похоже, у коробочного сюжета для не победивших фильмов меньше выбросов? [ОБНОВЛЕНИЕ2] Здесь я добавил два коробочных графика, которые должны представлять средние значения за год (для средних рейтингов) enter image description here

Итак, я не уверен, должны ли они выглядеть так, или я сделал что-то не так в расчетах. Я просто применил группу функций по годам, а затем среднее значение функции. Но я не уверен, является ли среднее значение лучшей функцией в тех случаях, когда числа уже являются средними. Просто хочу убедиться.

Вот т-тест:
enter image description here

Здесь я сделал то, что предложил один пользователь (моя интерпретация предложения), и получил другой т-тест результаты.

enter image description here И мой код:

XX <-  replicate(n = 10000, expr = mean(sample(
  x = imdb_winners$averageRating, size = 30, replace = TRUE)))
YY <- replicate(n = 10000, expr = mean(sample(
  x = imdb_not_winners$averageRating, size = 30, replace = TRUE)))

t.test(XX, YY)

Здесь t-значение очень большое, поэтому мы можем предположить, что награжденные актеры влияют на результаты. Я просто хочу убедиться, что мой код выглядит как le git, а также что может быть лучшей визуализацией для этих данных, что может создать впечатление, что данные отличаются. Спасибо за совет!

Ответы [ 2 ]

1 голос
/ 21 апреля 2020

Boxplots используются для визуального отображения распространения ваших данных. В окне отображается межквартильный диапазон (IQR) или диапазон значений, охватывающих от 25 процентилей (Q1) до 75 процентилей (Q3). Усы показывают минимум (Q1 - 1,5 * IQR) и максимум (Q3 + 1,5 * IQR).

Любые точки, которые выходят за пределы этих усов, являются выбросами. Из вашего коробчатого графика это выглядит, поскольку существует большое количество выбросов, однако, поскольку ваш набор данных очень большой, распределение не сильно искажается их присутствием (ваши усы и коробка довольно симметричны).

Ваш блокпост - это всего лишь один шаг в понимании распределения ваших данных. Вы можете построить гистограмму, график QQ и рассчитать некоторую другую сводную статистику, чтобы лучше ее понять.

0 голосов
/ 21 апреля 2020

Похоже, у вас есть тонна выбросов. Как структурированы данные? Есть ли подгруппы для данных? Вы предварительно преобразовали логарифмическое преобразование c в данные (например, данные Economi c). Чтобы интерпретировать сюжет коробки, это действительно зависит от того, что у вас есть. Наиболее важной частью интерпретации результатов является знание ваших данных.

Просто из того, что я вижу на изображении, я бы упомянул большое количество выбросов и, возможно, рассуждал о том, почему, в зависимости от того, что представляют данные. Я также хотел бы отметить, что между минимальным и максимальным значениями существует довольно большая разница, но между 25-м и 75-м квартилями спред немного меньше. Этот тип указывает, опять же, на то, что есть немало выбросов, на которые следует обратить внимание в любом виде регрессионного анализа. Может быть полезно поместить это в гистограмму (с плотностью ядра), используя gggplot, чтобы по-другому взглянуть на происходящее - это может помочь сделать дальнейшие выводы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...