У меня большой набор данных, содержащий около 200 столбцов и 1 миллион строк. У меня есть группа лечения, и я пытаюсь создать контрольную группу, используя оценку соответствия склонности, основанную примерно на 15 различных переменных.
У меня есть два вопроса, на которые я нашел противоречивые ответы онлайн, и я был бы признателен, если бы вы мне помогли.
1) Как организовать данные для наилучшего запуска процесса сопоставления? Мои данные содержат комбинацию числовых c, символьных и факторных (одни упорядоченные, другие нет) переменных, и я видел, как в Интернете одни люди говорили, что программа MatchIt выполняет анализ с символьными переменными, а другие - что не работает для «ближайшей» функции, но работает с другими. Итак, я должен приложить некоторые усилия для преобразования всего в число c или коэффициент (который я не уверен, что это будет возможно), или я могу запустить MatchIt с моими переменными такими, как они есть?
2 ) Была ли обновлена функция MatchIt для чтения NA в переменных, которые не используются для функции сопоставления? Я видел несколько старых постов, в которых говорилось, что MatchIt нужен набор данных COMPLETE, даже для переменных, которые не используются для сопоставления, но в этих постах также говорилось, что это, вероятно, будет исправлено. Это все еще так?
Спасибо