Изучение даты и переменных адреса - PullRequest
0 голосов
/ 28 декабря 2018

У меня есть набор данных, который содержит переменные даты, количественные и качественные переменные предиктора и двоичную зависимую переменную.Цель моего анализа - найти процент успеха в CORRECT и узнать больше о связи между CORRECT с независимыми переменными.

Есть люди, которых мы можем назвать трекерами, которые живут по всей территории США.Каждый из них обязан отслеживать адреса участников нашей программы по месту их нахождения.Проблема в том, что некоторые из этих трекеров не обновляют регулярно адрес группы участников, за которую они несут ответственность.Некоторые адреса в их базе данных могут быть устаревшими или неправильными по-другому.Я хочу больше узнать об этих правильных / неправильных адресах и их взаимосвязи между другими переменными.Ниже приведены некоторые переменные, которые у меня есть в моем наборе данных:

  • CORRECT: двоичная переменная, указывающая, правильно ли введен РЕКОРДЕР
  • RECORDER_ADDRESS:адрес, который РЕГИСТРАТОР внес в свою базу данных для участника
  • ACTUAL_ADDRESS: адрес, на котором участник фактически находится
  • ZIP_CODE: почтовый индекс участника
  • PARTICIPANT_ID: уникальный идентификатор участника
  • CREATED_DATE: дата, когда был записан начальный адрес участника
  • MODIFIED_DATE: даты изменения любой переменной
  • PARTICIPANT_START_DATE: дата начала участия участника в задании
  • PARTICIPANT_END_DATE: дата окончания этого долга участников
  • RECORDER: название рекордера, которыйотвечает за отслеживание этой записи
  • TRAINING: тип обучения, которое участник получил

Я выяснил точность RECORDER с.Я обнаружил, что они были правы примерно в 56% случаев.Сейчас я пытаюсь больше искать эти неправильные и правильные адреса.Я пробовал логистическую регрессию, чтобы предсказать CORRECT, но ни одна из переменных предиктора не была значимой.Я сделал столбчатую диаграмму с использованием переменных CORRECT и STATE вместе с CORRECT и RECORDER.Теперь я прибегаю к использованию 4 переменных даты вместе с ZIP_CODE, RECORDER_ADDRESS и ACTUAL_ADDRESS, чтобы узнать об успехах и неудачах RECORDERS.Существуют ли некоторые идеи визуализации или анализа, которые могут использовать переменные даты и / или адресные переменные, чтобы получить представление о правильных / неправильных записях?

Идея, которую можно использовать, состоит в том, чтобы создать другую переменную, которая будет иметь разницу во времени между CREATED_DATE и MODIFIED_DATE.Еще одно отличие для PARTICIPANT_START_DATE и MODIFIED_DATE.

...