Почему точное сопоставление с пакетом MatchIt R находит совпадающие пары, которые имеют 2 разных уровня категориальной переменной? - PullRequest
0 голосов
/ 27 апреля 2020

На самом деле я работаю над данными по вылову тунца. Я хочу сбалансировать свою выборку между двумя группами лиц: теми, которые помечены в контрольной области (обработанная группа), и теми, которые помечены вне этой области (контрольная группа). Для этого я использовал пакет MatchIt.

У меня есть 3 ковариаты: длина (по 5 см), месяц пометки (с января по декабрь) и структура, на которой был помечен тунец.

Таким образом, существует модель: treatment ~ length + month + structure

Эта последняя переменная является категориальной переменной с 5 уровнями, закодированными от A до E. Уровень A почти представлен только в группе лечения (6000 человек) со структурой = A, против 300 человек со структурой = A в контрольной группе).

Сначала я использовал метод ближайшего соседа, но улучшение баланса не было удовлетворительным. Поэтому я запустил методы точного и грубого точного сопоставления.

Я думал, что точные методы должны сопоставлять пары с одинаковыми значениями для каждого ковариат. Но в сопоставленных выходных данных в обработанной группе все еще находится более 3000 человек со структурой = A.

У вас, ребята, есть одно объяснение? Я много красный, но я не нашел ответы.

Спасибо

1 Ответ

0 голосов
/ 29 апреля 2020

Точное и грубое точное сопоставление не выполняют сопоставление 1: 1. Они находят всех участников в контрольной группе, которые точно соответствуют каждому члену в обработанной группе. Подклассы формируются на основе каждой комбинации значений предиктора, и любой подкласс, который имеет обработанные и управляющие единицы, сохраняется, а другие отбрасываются. Там нет спаривания, которое имеет место. Ваши результаты показывают, что у вас есть много контрольных единиц, которые имеют идентичные (или почти идентичные в случае CEM) значения ковариат как некоторые обработанные единицы.

...