Тестирование групп по их категориальным переменным против фиктивной переменной (т. Е. Путем начальной загрузки всего набора данных) - PullRequest
0 голосов
/ 04 марта 2019

надеюсь, что это не повторяющийся вопрос, я пытался найти хорошее решение, но безрезультатно.

Итак, у меня есть набор данных с различными группами и соответствующими категориальными переменными.

Например:

Group   Sex Status
A   M   Blue
A   M   Red
B   M   Blue
C   F   Green
C   F   Green
C   F   Red

Я хочу видеть для каждой группы, т. Е. C более вероятно имеет то есть пол (F) или статус (зеленый) по сравнению с общим распределением во всех группах.

Я попробовал логарифмическую регрессию multinom / vglm (в R), которая дает мне изменение логарифмических коэффициентов для т.е. M-> F (Sex) (учитывая, что M установлен на базовом уровне).Я также проверил эти изменения в коэффициентах журналов для статистической значимости (используя как t, так и нормальное распределение).

Результаты немного озадачивают, и я изо всех сил пытаюсь описать их.

У меня естьтакже провел точные тесты Фишера с компактным отображением букв - что очень удобно - но на самом деле не говорит мне, является ли группа C статистически более значимой, чем F (пол), чем среднее значение (но для каждой группы относительно друг друга).Например, этот пример (STXXXX - мои группы):

Group Letter MonoLetter
1    ST1579 abcdef     abcdef
2    ST1580  abcde     abcde
3    ST1582 abcdef     abcdef
4    ST1583 abcdef     abcdef
5    ST1584   abcf     abc  f
6    ST1587 abcdef     abcdef
7    ST1588  abcde     abcde
8    ST1594     de        de

Мне предложили загрузить весь набор данных, а затем сравнить каждую группу со средним значением начальной загрузки, однако я бы надеялся на небольшую помощьчтобы начать, если бы кто-нибудь мог указать мне правильное направление (желательно в R).

Спасибо

Редактировать: я не проверял переменную фиктивной / начальной загрузки, представляющую общее количество всех групп,вместо этого я использовал glm с биномиальным распределением.Это дает мне оценочные шансы на логарифм для изменения относительно базовой линии, что фактически отвечает на мой вопрос - то есть, какая группа имеет более высокие шансы, представленные мужчинами (показано положительным увеличением логарифмических шансов и значимостью оценок).Для таких переменных, как Status в примере - я сделал переменную binomial, следовательно, ответы будут выглядеть примерно так: GroupC, скорее всего (оценка X - со значением p), будет StatusGreen, а GroupA и GroupB более вероятно будут StatusNotGreen.

Надеюсь, что это может помочь, если кто-то еще борется с подобной проблемой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...