SPSS GLM Значения предикторов различаются при создании условий взаимодействия по сравнению с созданием переменных взаимодействия - PullRequest
0 голосов
/ 14 марта 2020

Мне было интересно, знает ли кто-нибудь, как SPSS строит условия взаимодействия / вычисляет значение для предикторов за кулисами в GLM? Насколько я понимаю, он фиктивно кодирует переменные и рассматривает тот, который идет в алфавитном порядке последним, как справочную группу.

Причина, по которой я спрашиваю, состоит в том, что у меня есть модель GLM, которая имеет 3 непрерывных предиктора и два категориальных предиктора (фиктивные). Когда я строю все двусторонние и трехсторонние взаимодействия с синтаксисом ie:

Age_Centred Age_Centred Dx Age_Centred пол Age_Centred Dx пол BMI_Centred BMI_Centred Dx BMI_Centred пол BMI_Centred Dx пол BPS_Centred BPS_Centred Dx BPS_Centred пол BPS_Centred Dx пол Dx Dx пол Dx ICV_Cent . ICV_Centred пол пол ICV_Centred ICV_Centred * пол

1022 * против создания вручную все переменные вручную ie 1024 * Age_Centred Age_Centred_Dx Age_Centred_gender Age_Centred_gender_Dx BMI_Centred BMI_Centred_Dx BMI_Centred_gender BMI_Centred_gender_Dx BPS_Centred BPS_Centred_Dx BPS_Centred_gender BPS_Centred_gender_Dx Dx gender_Dx ICV_Dx ICV_Centred_Dx_gender пол ICV_Centred ICV_gender.

Я получаю модель, которая имеет тот же перехват, общее значение и R в квадрате, однако меняется индивидуальное значение предикторов. Обратитесь к выводу ниже. Чтобы устранить неполадки, я попытался перевернуть группы ссылок при создании переменных вручную, но это по-прежнему не повторяет результаты. У меня был другой статистик, попробовавший то же самое, и в итоге я достиг той же точки, что и я. Связано ли это с некоторыми из параметров, которые являются избыточными?

Создание терминов с помощью синтаксиса:

Физическое создание переменных путем их умножения

1 Ответ

0 голосов
/ 06 мая 2020

Все подробности о том, как GLM (и UNIANOVA, который является одним и тем же базовым кодом) параметризует модели, оценивает параметры и проводит проверки гипотез, доступны в руководстве IBM SPSS Statistics Algorithms , доступен для скачивания в формате PDF по адресу ftp: //public.dhe.ibm.com/software/analytics/spss/documentation/statistics/26.0/en/client/Manuals/IBM_SPSS_Statistics_Algorithms.pdf. (Обратите внимание, что это большой файл, около 78 МБ; нажатие на ссылку запускает загрузку.) В дополнение к информации в главе GLM, приложения F (индикаторный метод) и H (суммы квадратов) актуальны, соответственно, для построения матрицы проекта и задания линейных комбинаций параметров модели для вычисления сумм квадратов для проверки гипотез.

При построении матрицы проекта категориальные предикторы (факторы) действительно представлены наборами показателей (0-1) переменные. Для фактора с уровнями k создаются индикаторные переменные k , по одной для каждого наблюдаемого уровня фактора. Процедура явно не рассматривает последнюю категорию (отсортированную в порядке возрастания, в алфавитном порядке для строк) как справочную категорию, хотя в более простых моделях эффект от того, что сделано, по существу одинаков. Если в модели имеется перехват, то индикатор k th будет избыточным (линейно зависимым) от перехвата и предшествующих индикаторов k-1 . Алгоритм оценки, используемый в GLM / UNIANOVA, установит строку и столбец в матрице перекрестных произведений, представляющих избыточный столбец в матрице проектирования, равными 0 с, а псевдоним соответствующей оценки параметра равным 0, и результаты аналогичны подходу репараметризации при последняя категория в качестве ссылочной категории, за исключением того, что вы должны помнить, что она существует, если вы хотите указать линейную комбинацию параметров для оценки.

Если вы подавите перехват, то для первого фактора, введенного в модель k th не будет избыточной (если коэффициент не предшествует необычной ковариате или множеству ковариат). Любые последующие факторы, включенные в модель, будут включать избыточные параметры, как и любые взаимодействия между факторами, независимо от того, включен ли перехват. Взаимодействия между факторами создаются путем умножения 0 и 1 для каждого уровня факторов на значения для каждого уровня другого фактора. Таким образом, для взаимодействия двух двухуровневых факторов создается четыре столбца, из которых обычно последние три являются избыточными.

Ковариаты вводятся просто путем копирования значений переменных в матрицу проектирования. Взаимодействия с участием ковариат и других ковариат умножают значения для столбцов, включенных в каждую строку, а взаимодействия с участием ковариат и факторов умножают ковариаты (или их произведения) на переменные индикатора для фактора (ов). Обычно ковариатные по ковариации термины не включают в себя избыточности, но термины по ковариации делают. результаты без ваших данных, но я могу воспроизвести показанные шаблоны, если предположу, что вы использовали двоичную переменную Dx в качестве ковариаты и двоичную переменную пола в качестве фактора в каждом анализе. (Кажется, что в вашей модели четыре непрерывных предиктора, а не три, но это не влияет на что-то важное для понимания происходящего.)

Есть два аспекта ситуации, которые необходимо рассмотреть. Одним из них является параметризация и то, как два способа ввода переменных в модель обрабатывают переменные и дают ли они одинаковые оценки параметров. Во-вторых, как спецификация модели приводит к испытаниям типа III, показанным в таблицах ANOVA.

Если я правильно понимаю вещи, основываясь на том, что вы опубликовали здесь, вы должны найти, сравниваете ли вы оценки параметров для двух анализов, что оценки параметров для перехватов и не избыточные оценки для пола ([пол = 0]) одинаковы и имеют одинаковые стандартные ошибки. Для терминов, включающих только ковариаты или продукты ковариат, я ожидаю, что вы найдете, что оценки параметров отличаются между двумя анализами и дают различную t-статистику. Я предполагаю, что для взаимодействий, включающих пол и ковариаты (то есть все другие переменные или продукты, созданные вне процедуры), оценки будут одинаковыми по величине и противоположными по знаку, с одинаковыми стандартными ошибками.

Ни одна из оценок или тестов здесь не верна. Установленные модели включают эффекты взаимодействия. Взаимодействие означает, что влияние одной переменной варьируется в зависимости от уровня другой переменной (ей) во взаимодействии, и для того, чтобы оценить те же простые эффекты, вы должны параметризовать модель таким же образом, по крайней мере, насколько это возможно. -резервированные параметры касаются. Однако, чтобы тесты типа III для всех терминов были идентичными, не всегда достаточно иметь одинаковые оценки параметров и стандартные ошибки. Тесты типа III включают концепцию, называемую сдерживанием, которая также должна учитываться.

Для двух эффектов в модели эффект A содержится в эффекте B, если:

  • A и B содержат те же самые ковариатные термины, если таковые имеются.
  • B содержит все факторные эффекты в A и по крайней мере еще один (с перехватом, содержащимся во всех факторных эффектах).

In В исходной модели перехват включается в гендерный эффект, пол не включается ни в какие эффекты, а все ковариатные основные эффекты и двусторонние взаимодействия между ковариатами содержатся во взаимодействиях между этими терминами и полом, тогда как трехсторонний взаимодействия (которые включают пол) не содержатся в каких-либо других эффектах.

Суммы квадратов типа III (изобретены не SPSS, а нашими друзьями из SAS) основаны на линейных комбинациях параметров, в которых данный эффект корректируется для любых эффектов, которые его не содержат, и делается ортогональными к любые эффекты, которые его содержат. Практическое применение этих правил является сложным (см. Приложение H алгоритмов).

Если вы перекодируете переменную пола, чтобы поменять местами значения 0 и 1, укажите ее как ковариату вместе со всеми другими переменными, и Подходя к одной и той же модели, вы должны иметь возможность сопоставить все не избыточные оценки параметров из исходной модели, а также их стандартные ошибки и t-статистику. Однако из-за того, что в первоначальной модели больше отсутствуют взаимосвязи содержания, тесты типа III для терминов, не связанных с полом (которые ранее содержались в терминах, связанных с полом), не будут совпадать.

Суть в том, что все результаты являются переводимыми и все корректны в отношении того, что делается, и что для того, чтобы иметь большой смысл в отдельных терминах, вы должны тщательно сосредоточиться на том, что оценивается в данной параметризации, так как а также отношения сдерживания. Сложная часть становится проще, когда вы серьезно относитесь к тому факту, что, когда переменная X участвует в терминах взаимодействия, нет единой оценки влияния X. Любые оценки являются условными, в которых вы фиксируете значение (я) терминов, с которыми Х взаимодействует.

...