Я работаю над личным проектом анализа данных, и у меня есть пять файлов с разными показателями (время измерений, CO2, влажность и температура). Каждый файл соответствует отдельной комнате (гостиная, детская, кухня, ванная комната и спальня). Я работаю с SVR, чтобы делать прогнозы уровней CO2, чтобы предсказать занятость каждой комнаты на основе влажности и температуры.
Мой вопрос возникает, когда я пытаюсь работать с данными, потому что я не уверен, как мне поступить. Дело в том, что когда я работаю только с одним файлом, я могу получить оценку R2 0,92, что довольно хорошо. Но если я работаю со слиянием всех данных в один файл и работаю с этим, максимальный результат R2, который я получаю, равен 0,5, даже если я потрачу три дня на оценку параметров. Я не уверен, как поступить, и вроде как потерял в этом. Как мне работать с этими данными?
Спасибо, что потратили время на ответы. Я действительно ценю это.
Это файлы: https://drive.google.com/drive/folders/1AUaHNpJryR1xrFYF6HYY7zoFAeIZ9umc?usp=sharing
Редактировать 1: я использовал 70% для обучения в обеих ситуациях (только с одним файлом, и со всеми файлами слились). Я протестировал модель с разными размерами (с использованием экземпляров 60, 180, 360, 1440 и 4320).
Редактировать 2: У меня вопрос, как мне обрабатывать эти данные. Как отдельные модели, по одной на каждую комнату, а потом делают из них ансамбль? Или, может быть, объединить все данные является правильным способом следовать? Или, может быть, есть другой способ?
Редактировать 3: Я закончил работать с каждым файлом в отдельности и тренировать разные модели для каждого. После этого я сделал ансамбль с функцией VotingRegressor из scikit learn. Надеюсь, это поможет, если у кого-то возникнет тот же вопрос, что и у меня.