Как подготовить переменные для сопоставления оценки склонности в R с помощью MatchIt? - PullRequest
0 голосов
/ 08 января 2020

У меня большой набор данных, содержащий около 200 столбцов и 1 миллион строк. У меня есть группа лечения, и я пытаюсь создать контрольную группу, используя оценку соответствия склонности, основанную примерно на 15 различных переменных.

У меня есть два вопроса, на которые я нашел противоречивые ответы онлайн, и я был бы признателен, если бы вы мне помогли.

1) Как организовать данные для наилучшего запуска процесса сопоставления? Мои данные содержат комбинацию числовых c, символьных и факторных (одни упорядоченные, другие нет) переменных, и я видел, как в Интернете одни люди говорили, что программа MatchIt выполняет анализ с символьными переменными, а другие - что не работает для «ближайшей» функции, но работает с другими. Итак, я должен приложить некоторые усилия для преобразования всего в число c или коэффициент (который я не уверен, что это будет возможно), или я могу запустить MatchIt с моими переменными такими, как они есть?

2 ) Была ли обновлена ​​функция MatchIt для чтения NA в переменных, которые не используются для функции сопоставления? Я видел несколько старых постов, в которых говорилось, что MatchIt нужен набор данных COMPLETE, даже для переменных, которые не используются для сопоставления, но в этих постах также говорилось, что это, вероятно, будет исправлено. Это все еще так?

Спасибо

1 Ответ

1 голос
/ 12 января 2020

1) Помимо типа данных, вопрос, который вы должны задать себе, - какой смысл давать категориальные данные для настройки показателя склонности. Оценки склонности основаны на расстояниях между наблюдениями, и вычисление расстояний между категориальными атрибутами, очевидно, затруднительно. Таким образом, хотя с технической точки зрения MatchIt поддерживает другие типы, числовые функции c являются единственным действительно разумным вводом данных. Вы можете либо отказаться от категориальных данных из ваших данных, либо преобразовать их в цифры c (путем создания фиктивных переменных и числового кодирования порядковых элементов). В качестве альтернативы вы можете сохранить категориальные признаки и наложить на них точное соответствие, используя параметр exact функции matchit (обратите внимание, что в этом случае вы больше не используете сопоставление баллов склонности ..).

2) Эта проблема не была решена в текущей версии 3.0.2, что явно раздражает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...