На самом деле я работаю над данными по вылову тунца. Я хочу сбалансировать свою выборку между двумя группами лиц: теми, которые помечены в контрольной области (обработанная группа), и теми, которые помечены вне этой области (контрольная группа). Для этого я использовал пакет MatchIt
.
У меня есть 3 ковариаты: длина (по 5 см), месяц пометки (с января по декабрь) и структура, на которой был помечен тунец.
Таким образом, существует модель: treatment ~ length + month + structure
Эта последняя переменная является категориальной переменной с 5 уровнями, закодированными от A до E. Уровень A почти представлен только в группе лечения (6000 человек) со структурой = A, против 300 человек со структурой = A в контрольной группе).
Сначала я использовал метод ближайшего соседа, но улучшение баланса не было удовлетворительным. Поэтому я запустил методы точного и грубого точного сопоставления.
Я думал, что точные методы должны сопоставлять пары с одинаковыми значениями для каждого ковариат. Но в сопоставленных выходных данных в обработанной группе все еще находится более 3000 человек со структурой = A.
У вас, ребята, есть одно объяснение? Я много красный, но я не нашел ответы.
Спасибо