У меня есть набор данных, который содержит переменные даты, количественные и качественные переменные предиктора и двоичную зависимую переменную.Цель моего анализа - найти процент успеха в CORRECT
и узнать больше о связи между CORRECT
с независимыми переменными.
Есть люди, которых мы можем назвать трекерами, которые живут по всей территории США.Каждый из них обязан отслеживать адреса участников нашей программы по месту их нахождения.Проблема в том, что некоторые из этих трекеров не обновляют регулярно адрес группы участников, за которую они несут ответственность.Некоторые адреса в их базе данных могут быть устаревшими или неправильными по-другому.Я хочу больше узнать об этих правильных / неправильных адресах и их взаимосвязи между другими переменными.Ниже приведены некоторые переменные, которые у меня есть в моем наборе данных:
CORRECT
: двоичная переменная, указывающая, правильно ли введен РЕКОРДЕР RECORDER_ADDRESS
:адрес, который РЕГИСТРАТОР внес в свою базу данных для участника ACTUAL_ADDRESS
: адрес, на котором участник фактически находится ZIP_CODE
: почтовый индекс участника PARTICIPANT_ID
: уникальный идентификатор участника CREATED_DATE
: дата, когда был записан начальный адрес участника MODIFIED_DATE
: даты изменения любой переменной PARTICIPANT_START_DATE
: дата начала участия участника в задании PARTICIPANT_END_DATE
: дата окончания этого долга участников RECORDER
: название рекордера, которыйотвечает за отслеживание этой записи TRAINING
: тип обучения, которое участник получил
Я выяснил точность RECORDER
с.Я обнаружил, что они были правы примерно в 56% случаев.Сейчас я пытаюсь больше искать эти неправильные и правильные адреса.Я пробовал логистическую регрессию, чтобы предсказать CORRECT
, но ни одна из переменных предиктора не была значимой.Я сделал столбчатую диаграмму с использованием переменных CORRECT
и STATE
вместе с CORRECT
и RECORDER
.Теперь я прибегаю к использованию 4 переменных даты вместе с ZIP_CODE
, RECORDER_ADDRESS
и ACTUAL_ADDRESS
, чтобы узнать об успехах и неудачах RECORDERS
.Существуют ли некоторые идеи визуализации или анализа, которые могут использовать переменные даты и / или адресные переменные, чтобы получить представление о правильных / неправильных записях?
Идея, которую можно использовать, состоит в том, чтобы создать другую переменную, которая будет иметь разницу во времени между CREATED_DATE
и MODIFIED_DATE
.Еще одно отличие для PARTICIPANT_START_DATE
и MODIFIED_DATE
.