надеюсь, что это не повторяющийся вопрос, я пытался найти хорошее решение, но безрезультатно.
Итак, у меня есть набор данных с различными группами и соответствующими категориальными переменными.
Например:
Group Sex Status
A M Blue
A M Red
B M Blue
C F Green
C F Green
C F Red
Я хочу видеть для каждой группы, т. Е. C более вероятно имеет то есть пол (F) или статус (зеленый) по сравнению с общим распределением во всех группах.
Я попробовал логарифмическую регрессию multinom / vglm (в R), которая дает мне изменение логарифмических коэффициентов для т.е. M-> F (Sex) (учитывая, что M установлен на базовом уровне).Я также проверил эти изменения в коэффициентах журналов для статистической значимости (используя как t, так и нормальное распределение).
Результаты немного озадачивают, и я изо всех сил пытаюсь описать их.
У меня естьтакже провел точные тесты Фишера с компактным отображением букв - что очень удобно - но на самом деле не говорит мне, является ли группа C статистически более значимой, чем F (пол), чем среднее значение (но для каждой группы относительно друг друга).Например, этот пример (STXXXX - мои группы):
Group Letter MonoLetter
1 ST1579 abcdef abcdef
2 ST1580 abcde abcde
3 ST1582 abcdef abcdef
4 ST1583 abcdef abcdef
5 ST1584 abcf abc f
6 ST1587 abcdef abcdef
7 ST1588 abcde abcde
8 ST1594 de de
Мне предложили загрузить весь набор данных, а затем сравнить каждую группу со средним значением начальной загрузки, однако я бы надеялся на небольшую помощьчтобы начать, если бы кто-нибудь мог указать мне правильное направление (желательно в R).
Спасибо
Редактировать: я не проверял переменную фиктивной / начальной загрузки, представляющую общее количество всех групп,вместо этого я использовал glm с биномиальным распределением.Это дает мне оценочные шансы на логарифм для изменения относительно базовой линии, что фактически отвечает на мой вопрос - то есть, какая группа имеет более высокие шансы, представленные мужчинами (показано положительным увеличением логарифмических шансов и значимостью оценок).Для таких переменных, как Status в примере - я сделал переменную binomial, следовательно, ответы будут выглядеть примерно так: GroupC, скорее всего (оценка X - со значением p), будет StatusGreen, а GroupA и GroupB более вероятно будут StatusNotGreen.
Надеюсь, что это может помочь, если кто-то еще борется с подобной проблемой.