Мой ответ будет несколько общим, прежде чем выбрать правильную модель, вам нужно
- Изучить и понять ваши данные (попытаться выяснить, какие данные полезны, а какие нет)
- Очистите ваши данные
- Унифицируйте формат данных
- Выберите данные, необходимые для построения вашей модели.
Что касается вашего вопроса, я бы решил эту проблемупостроение различных моделей, затем тестирование и проверка их.Я продолжал бы перебирать модели и пытаться улучшить, пока не найду лучшую модель, которая может предсказать за пределами вашего набора данных, другими словами, общую модель, которая не переизбыточна.
Если ваша цель - найти- затем правила, которые могут предсказывать, вы можете использовать модели, которые легче интерпретировать, такие как деревья решений или случайные леса.Если вы хотите только прогнозировать, не заботясь о правилах используемой модели, вы можете использовать более сложные модели, такие как нейронные сети, которые также могут быть интерпретированы, но более сложны.
Это полностью зависит от ваших данных и ваших целей.В моем университете нас попросили построить модели интеллектуального анализа данных для прогнозирования оттока клиентов с помощью большого набора данных.Первым шагом было профилирование данных, которое создает профиль для каждого атрибута в наборе данных.Профиль данных включал:
- Числовой или категориальный атрибут и такие вещи, как (мин., Макс., Набор записей, если категориальный атрибут).
- Field Null Ratio (Сколько строк имело значение NULL вкаждый атрибут).
- Статистика, такая как среднее значение, стандартное отклонение и другие для каждой возможной записи строки.
- Функциональные зависимости между атрибутами
Затем мы продолжали строить модели, используяразличные комбинации параметров и полей, которые, как мы думали, будут улучшаться, чтобы найти лучшую модель.Цель проекта состояла в том, чтобы извлечь правила If-Then, которые лучше всего предсказывают отток.Поэтому мы наконец выбрали модель деревьев решений, которая также имела приемлемую точность.
Надеюсь, мой ответ поможет.