У меня есть набор данных, который содержит поведение пользователей сайта в течение шести месяцев.Он содержит данные о:
- Количество просмотренных страниц
- Количество уникальных файлов cookie, связанных с каждым пользователем
- Разное количество ОС, используемых браузеров
- Разное количество посещенных городов
Все здесь собрано за шесть месяцев.Я использовал эти данные для обучения модели для прогнозирования целевой переменной «у».Все числовые в формате.
Теперь я знаю, что это шестимесячные данные, и модель построена на этих шестимесячных данных, и я могу использовать это для прогнозирования следующих шестимесячных данных, чтобы получить целевую переменную.y.
Мой вопрос заключается в том, что если вместо того, чтобы использовать его для прогнозирования на шестимесячном временном интервале, я буду использовать модель для прогнозирования на месячном временном интервале, это даст мне неверные результаты?
Моя логика говорит мне да , как, например, я использовал древовидный метод, такой как Дерево решений и Случайный лес, эти алгоритмы как бы порождают пороговые значения для выдачи «0/1».Теперь переменные, которые я упомянул выше, такие как количество связанных файлов cookie, ОС, браузер и т. Д., Будут иметь разные значения, если мы посмотрим на это с точки зрения одного месяца и если мы посмотрим на это с точки зрения 6 месяцев.Например, количество уникальных файлов cookie, связанных с пользователем, будет меньше, если их просматривать в течение месяца, а также будет больше, если смотреть с точки зрения 6 месяцев.
Но меня смущает вопрос, будет ли модель автоматически корректировать эти значения при работе с месячными данными или нет.Прошу вас помочь мне понять, если я думаю, что это правильно или неправильно.Также, пожалуйста, предоставьте логическое объяснение, если это возможно.
Спасибо.