Есть ли способ не выбирать ссылочную категорию для регрессии logisti c в SPSS? - PullRequest
0 голосов
/ 12 марта 2020

При выполнении регрессии logisti c в SPSS, есть ли способ удалить справочную категорию в независимых переменных, чтобы они все сравнивались друг с другом одинаково, а не с справочной категорией?

1 Ответ

0 голосов
/ 02 мая 2020

Когда у вас есть категориальная переменная предиктора, наиболее фундаментальный способ ее кодирования для моделирования, иногда называемого каноническим представлением, заключается в использовании индикатора 0-1 для каждого уровня предиктора, где каждый случай принимает значение 1 для индикатора, соответствующего его категории, и 0 для всех остальных индикаторов. Процедура регрессии полиномиальной логистики c в SPSS (NOMREG) использует эту параметризацию.

Если вы запускаете NOMREG с одним категориальным предиктором с уровнями k , матрица проектирования создается со столбцом перехвата и переменными индикатора k , если вы не подавите перехватывать. Если перехват остается в модели, последний индикатор будет избыточным, линейно зависящим от перехвата и первых индикаторов k -1. Еще один способ сказать, что матрица проекта имеет недостаточный ранг, поскольку любой из столбцов может быть предсказан с учетом других k столбцов.

Та же избыточность будет справедлива для любых дополнительных категорические предикторы, введенные в качестве основных эффектов (только k -1 из k индикаторов могут не вызываться). Если вы добавляете взаимодействия между категориальными предикторами, генерируется индикатор для каждой комбинации уровней двух предикторов, но более одного из них также будет избыточным, учитывая перехват и основные эффекты, предшествующие взаимодействию (ям).

Таким образом, фундаментальное или каноническое представление модели является чрезмерно параметризованным, то есть имеет больше параметров, чем можно однозначно оценить. Существует множество способов справиться с этим фактом. Одним из подходов является тот, который используется в NOMREG и большинстве других более поздних процедур моделирования регрессионного типа в SPSS, который заключается в использовании обобщенного обратного к перекрестному произведению матрицы проекта, который имеет эффект наложения параметров, связанных с избыточными столбцами, на 0. Вы увидите эти параметры, представленные 0 значениями без стандартных ошибок или других статистических данных в выходных данных SPSS.

Другой способ, используемый в SPSS для обработки сверхпараметризованного характера модели basi c, заключается в повторно параметризовать матрицу проектирования до полного ранга, что включает создание кодированных переменных k -1 вместо индикаторов k для каждого основного эффекта и создание из них переменных взаимодействия. Этот подход принят в LOGISTI C REGRESSION.

Обратите внимание, что общее соответствие модели и прогнозные значения из регрессии logisti c (или другой формы линейной или обобщенной линейной модели) будут одинаковыми независимо из того, что делается выбор в отношении параметризации, при условии, что соответствующее общее число уникальных столбцов находится в матрице проекта. Определенные оценки параметров, конечно, сильно зависят от конкретной используемой параметризации, но вы можете получить результаты любого из действительных подходов, используя результаты любого другого действительного подхода.

Если есть k уровней в категориальном предикторе, есть k -1 степеней свободы для сравнения этих k групп, что означает, что, как только вы сделали k -1 линейно независимые или нередуцируемые сравнения, любые другие могут быть получены из тех.

Таким образом, короткий ответ - нет, вы не можете делать то, о чем говорите, но вам это не нужно, потому что результаты для любой действительной параметризации позволят вам вывести их для любого другого .

...