Тренировочные данные в измерении времени, дисбалансе класса и пропусках - PullRequest
0 голосов
/ 13 мая 2019

Я новичок в этом сообществе и работаю над контролируемой задачей машинного обучения. Задача состоит в том, чтобы классифицировать клиентов в зависимости от их продолжительности, с которой они держат продукт фирмы в долгосрочных отношениях со всеми людьми, являющимися клиентом более двенадцати месяцев, и с долгосрочными отношениями, являющимися клиентом менее года, исходя из продолжительности периода. У меня много социально-демографических характеристик, а также переменных региональных и циклических экономических факторов. Я смотрю на базу данных клиентов за период с 2006 по 2014 год. Теперь мои вопросы об этом: - Поскольку у него есть временное измерение, как мне построить учебные и тестовые образцы? Должен ли я использовать первые годы для обучения и последние для прогнозирования, так как я хочу самую новую версию? Полезна ли случайная выборка? - У меня проблема несбалансированных классов, так как доля долгосрочных отношений составляет около 10%. Как мне решить эту проблему, если у меня будет достаточно наблюдений? Альтернативная мера, как сбалансированная точность? - И у меня около 5% пропусков как ist Maximum с некоторыми переменными, достаточно ли создать для них собственный Индикатор и удалить наблюдения с пропусками менее 1%?

Методы, которые я выберу, это логистическая регрессия и деревья решений. У опорных векторов есть проблемы с большим количеством переменных? Какие методы я мог бы также использовать?

Я работаю с R ....

...