Несбалансированный ANOVA, R возможно игнорируя дубликаты - PullRequest
0 голосов
/ 22 декабря 2018

После запуска одностороннего ANOVA для моего набора данных я заметил, что он сообщает о результатах как несбалансированных, несмотря на наличие четного числа записей для каждой переменной.

Затем, используя ezPrecis для просмотра кадра данных, кажется, что некоторые значения не учитываются, несмотря на то, что зарегистрировано правильное количество строк.Например, используя только метод C из идентификатора 1, он говорит, что в ct есть 46 значений, хотя он регистрирует 50 строк (и имеет 50 значений в ct).Возможно ли, что R игнорирует повторяющиеся значения?Потому что, глядя на необработанный файл, есть 4 400 и 2 1684.Если вы удалите дубликаты, то это точно 4 не учитываемых элемента, что соответствует 46 подсчитанным ct при просмотре через ezPrecis.Это почему Anova неуравновешен?Если да, то как это исправить?

library(ez)

data1 <- read.csv("data.csv")

data1

data1$id <- as.character(data1$id)
data1$id <- as_factor(data1$id)
data1$method <- as_factor(data1$method)

ezPrecis(data1)

ezDesign(data=data1, x=method, y=id)

data2 <- data1 %>% 
  group_by(method) %>% 
  summarise(mean = mean(ct, na.rm = TRUE),
        sd = sd(ct, na.rm = TRUE),
        se = sd(ct)/sqrt(length(ct)))
data2

data2anova <- ezANOVA(data=data1, dv=ct, wid=id, within=.(method),type=3, 
detailed=TRUE, return_aov=TRUE)
data2anova

Необработанные данные: https://ufile.io/cfe1w

1 Ответ

0 голосов
/ 22 декабря 2018

Все строки используются в ANOVA.Функция ezPrecis информирует вас о количестве уникальных значений в столбце.Это ясно из справки для функции, где она ссылается на столбец «значения» как «уникальный».Почему имя этого столбца было изменено на «значения», можно только догадываться.

В выводе ANOVA говорится: «Предполагаемые эффекты могут быть несбалансированными».Репликации для каждой переменной, например, вычисленные с использованием функции replications, вероятно, проверяются во время обработки aov и предупреждают пользователя о наличии дисбаланса.

Ваш фрейм данных дает следующее:

replications(~ . - ct, data=data1)

       id    method testblock     trial 
      150       100        60        30 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...