Как обрабатывать недостающие данные, включающие несколько наборов данных - PullRequest
1 голос
/ 19 мая 2019

Я разрабатываю модель, которая используется для прогнозирования вероятности смены клиента телефонных компаний на основе их ежедневного использования.Мой набор данных содержит информацию за две недели (14 дней).

Мои наборы данных включают в каждую строку:

ID пользователя, день (число от 1 до 14), список из 15 дополнительных значений.

Проблема заключается в том, что некоторые клиенты не используют свои телефоны каждый день, поэтому для каждого клиента мы имеем случайное количество строк (от 1 до 14) в зависимости от дней, когда они использовали свои телефоны.Поэтому у нас есть некоторые пропущенные комбинации данных дня клиента.

Удаление пропущенных значений не является вариантом, поскольку набор данных невелик и это может повлиять на методы прогнозирования.

Какой вид обработки я могу использовать для значений этого пропущенного дня для каждого клиента?

Я попытался создать новый набор данных, в котором у нас есть только одна запись на клиента, есть новое значение, которое количественно определяет количество дней использования телефона, а остальные значения являются средним значением всехзначения, найденные в каждый день исходного набора данных.Это уменьшает размер набора данных, и у нас будет та же проблема, что и при удалении пропущенных значений.

Я думал о добавлении значений для пропущенных дней для каждого клиента (используя методы интерполяции), но это исказило бы результаты, поскольку это сделало бы набор данных таким, как если бы каждый клиент использовал свои телефоны каждый день, и это повлияло бы наПрогностическая модель.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...