Меня интересует, как могут отличаться результаты при сравнении средних значений с использованием t-критерия с двумя выборками, а не t-критерия с одним образцом из тех же данных. Сравниваются две оценки, в которых «подсчеты» выбираются случайным образом из разных групп населения («Group_ID») с использованием двух разных методов («источник»). Результат р> 0,05 указывает на то, что средние значения статистически не различаются (т.е. оба метода оценки дают схожие результаты). Исходные данные для источника = A надежны и всегда доступны. Необработанные данные для источника = B могут быть недоступны, но среднее значение всегда будет предоставлено. Используя набор тестовых данных, я хочу изучить, как отличаются результаты t.test, используя один образец t.test в отличие от двух образцов t.test.
Используя функции dplyr и broom, я определил, как сделать несколько t-тестов с двумя образцами в нескольких случаях («Group_ID»), где были проведены две оценки. Данные из двух источников объединяются для создания фрейма данных из трех столбцов, содержащего необработанные значения («количество»), идентифицированные одним из двух источников («источник»).
glimpse(Data)
Observations: 2,552
Variables: 3
$ Group_ID <fct> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1...
$ count <dbl> 7, 8, 5, 5, 7, 3, 4, 2, 8, 11, 12, 1, 3, 5, 5, 12, 1, 5...
$ source <chr> "B", "B", "B", "B", "B", "B", "B", "B",...
В тесте с двумя выборками сравниваются средние значения из обоих источников и рассматриваются различия в обоих наборах данных с использованием следующего:
Data_Stats <- Data %>%
group_by(Group_ID) %>%
do(tidy(t.test(count ~ source, alt="two.sided", conf=0.95, var.eq=FALSE, paired=FALSE, data = .)))
Результаты в
Observations: 38
Variables: 11
Groups: Group_ID [38]
$ Group_ID <fct> 1, 1029, 1032, 1033, 1041, 1044, 1064, 1065, 1067, 1080, 1081, 1083, 1084, 117, 127, 180, 2...
$ estimate <dbl> -0.4250000, -6.5000000, -1.1944444, 0.3437500, -5.2250000, -1.4375000, -1.6250000, -1.48387...
$ estimate1 <dbl> 5.250000, 9.166667, 5.833333, 6.156250, 5.375000, 3.937500, 2.075000, 6.000000, 4.108108, 9...
$ estimate2 <dbl> 5.675000, 15.666667, 7.027778, 5.812500, 10.600000, 5.375000, 3.700000, 7.483871, 6.540541,...
$ statistic <dbl> -0.42469044, -3.42643903, -1.19922603, 0.32509809, -3.36599817, -1.94947775, -2.47005992, -...
$ p.value <dbl> 6.723526e-01, 1.480949e-03, 2.355386e-01, 7.463614e-01, 1.509467e-03, 5.649284e-02, 1.57612...
$ parameter <dbl> 70.66653, 38.05593, 55.46167, 54.07284, 47.94418, 53.45682, 75.67387, 44.38453, 49.87894, 6...
$ conf.low <dbl> -2.420560, -10.340117, -3.190125, -1.776090, -8.346179, -2.916196, -2.935370, -3.969856, -5...
$ conf.high <dbl> 1.570559944, -2.659882919, 0.801236360, 2.463590202, -2.103821060, 0.041195928, -0.31462953...
$ method <chr> "Welch Two Sample t-test", "Welch Two Sample t-test", "Welch Two Sample t-test", "Welch Two...
$ alternative <chr> "two.sided", "two.sided", "two.sided", "two.sided", "two.sided", "two.sided", "two.sided", ...
Я знаю, что могу получить средства для каждого случая, используя:
Data_means <- Data %>%
group_by(Group_ID) %>%
summarize(count_mean = mean(count))
Я ищу предложение о том, как наилучшим образом использовать среднее значение для каждого Group_ID из source = 2 в качестве значения для "mu =" "вызвать функцию t.test для сравнения со средним значением source = 1, используя t-тест для одной выборки для каждого из 38 различных идентификаторов Group_ID?