Я новичок в этом сообществе и работаю над контролируемой задачей машинного обучения. Задача состоит в том, чтобы классифицировать клиентов в зависимости от их продолжительности, с которой они держат продукт фирмы в долгосрочных отношениях со всеми людьми, являющимися клиентом более двенадцати месяцев, и с долгосрочными отношениями, являющимися клиентом менее года, исходя из продолжительности периода. У меня много социально-демографических характеристик, а также переменных региональных и циклических экономических факторов. Я смотрю на базу данных клиентов за период с 2006 по 2014 год. Теперь мои вопросы об этом:
- Поскольку у него есть временное измерение, как мне построить учебные и тестовые образцы? Должен ли я использовать первые годы для обучения и последние для прогнозирования, так как я хочу самую новую версию? Полезна ли случайная выборка?
- У меня проблема несбалансированных классов, так как доля долгосрочных отношений составляет около 10%. Как мне решить эту проблему, если у меня будет достаточно наблюдений? Альтернативная мера, как сбалансированная точность?
- И у меня около 5% пропусков как ist Maximum с некоторыми переменными, достаточно ли создать для них собственный Индикатор и удалить наблюдения с пропусками менее 1%?
Методы, которые я выберу, это логистическая регрессия и деревья решений.
У опорных векторов есть проблемы с большим количеством переменных?
Какие методы я мог бы также использовать?
Я работаю с R ....