Сравнение групповых средств с ци-квадратом - PullRequest
0 голосов
/ 03 апреля 2012

Хотелось бы посмотреть, являются ли различия в группах в моих данных статистически значимыми.

Как выполнить тест хи-квадрат с данными в длинном формате, подобном этому

Country        Year     Value
Country A       1         2
Country A       2         3
Country A       3         3
Country B       1         6
Country B       2         7
Country B       3         6
Country C       1         9
Country C       2         8
Country C       3         9

Я не знаю, как запустить тест хи-квадрат для одной и той же переменной, но для разных групп (стран).

Спасибо

Ответы [ 2 ]

1 голос
/ 03 апреля 2012

Вам необходимо переформатировать данные из длинного формата в подходящий широкий формат для большинства статистических тестов, подобных этому. Мне нравится пакет reshape2, чтобы помочь с такими вещами.

Например:

> x <- read.table(text = "Country        Year     Value
+ Country.A       1         2
+ Country.A       2         3
+ Country.A       3         3
+ Country.B       1         6
+ Country.B       2         7
+ Country.B       3         6
+ Country.C       1         9
+ Country.C       2         8
+ Country.C       3         9", header = TRUE)
> 
> 
> library(reshape2)
> wide <- dcast(x, Country ~ Year, value.var = "Value")
> wide
    Country 1 2 3
1 Country.A 2 3 3
2 Country.B 6 7 6
3 Country.C 9 8 9

Теперь он ближе к формату, который вам нужен для chisq.test() или любого другого теста, который вас может заинтересовать. Первая строка содержит столбец Страна, который, скорее всего, необходимо исключить из анализа, поскольку он не имеет отношения к подсчетам:

> wide[, -1]
  1 2 3
1 2 3 3
2 6 7 6
3 9 8 9

Я оставлю на ваше усмотрение определить, какой тест подходит для ваших данных.

0 голосов
/ 03 апреля 2012

Вы не указали гипотезу для проверки, поэтому применить «критерий хи-квадрат» пока невозможно.(Тот факт, что вы указываете конкретный случай, в отношении которого вы не уверены относительно реализации, предполагает, что он может быть домашней работой.) Из данных, которые вы предлагаете, достаточно ясно, что строки вообще не являются независимыми.У вас есть только три страны, а затем повторные измерения в течение последовательных временных интервалов чего-то, что имеет целочисленные значения.Это количество?Если это попытка упростить более богатый набор данных для целей обсуждения, то вам нужно изменить свой вопрос и приложить некоторые усилия для создания реалистичного контрольного примера, чтобы можно было предложить содержательные комментарии

...