Как структурировать модель LSTM для прогнозирования среднего потребления энергии на домохозяйство? - PullRequest
0 голосов
/ 04 августа 2020

В настоящее время я работаю над своим первым проектом глубокого обучения, и у меня возникли некоторые вопросы относительно использования модели LSTM.

Я работаю с набором данных, который содержит ежедневную информацию о потреблении энергии более 5500 домохозяйства. У меня есть следующие 12 функций и 1 целевая переменная («суточная сумма энергии»):

  1. 4 функции, которые отражают среднее потребление в разное время дня (утро, полдень, ночь , et c ...)

  2. 3 Особенности OHE, которые представляют разные времена года (лето, зима, осень, весна). Их всего три, потому что я решил исключить одну категорию при кодировании.

  3. 5 признаков OHE, которые определяют демографические / психографические c группы каждого домохозяйства.

Проблема в том, что данные, собранные интеллектуальными датчиками, отслеживающими индивидуальное потребление, похоже, установлены и работают в разные дни / периоды времени. Поскольку у домохозяйств есть от 200 до 800 дней сбора информации, я подумал о стандартизации количества дней до 500 (чтобы сохранить 90% набора данных), но проблема в том, что я осознал, что во многих из этих домохозяйств измерения проводятся в течение разные периоды времени.

Например:

  • Домохозяйство 1 может иметь 500 последовательных дней записи с 01/2012 г.
  • Домохозяйство 2 может иметь 500 последовательных дней записи, начиная с 05/2012.
  • Домохозяйство 3 может иметь 500 дней подряд (с пропуском дней случайным образом) записи, начиная с 01/2012.
  • Дом 4 ...

Вначале данные просто упорядочивались по дням. Сначала я подумал о создании разных фреймов данных для каждого домохозяйства и передаче данных о домохозяйстве через модель LSTM один за другим размером (500, 7, 12), но я не уверен, сильно ли повлияет несогласованность данных на модель. Я думаю, что, возможно, количество функций поможет противодействовать этому эффекту, помогая модели распознавать закономерности в них, но это не подтверждается никакими исследованиями.

Второй вариант, который я рассматриваю, - это пройти данные изо дня в день с учетом того, что разные домохозяйства имеют разную информацию за разные дни. Таким образом, я смогу охватить все 800 дней набора данных. Хотя я не уверен, повлияет ли количество измерений домашних хозяйств между днями на модель.

Третий вариант - усреднить ежедневное потребление всех домашних хозяйств и сделать прогноз на основании этого. Это звучит как наиболее разумный способ решить проблему, но моя главная проблема здесь в том, что я потеряю демографический / психографический c аспект каждого домохозяйства.

Моя основная цель - спрогнозировать среднее потребление для каждого отдельного человека. домохозяйств, но наиболее разумный способ решить эту проблему - это спрогнозировать общее потребление. Я думал об этой проблеме на прошлой неделе и не нашел никакого решения. Поскольку у меня действительно большой набор данных (около 4 миллионов записей при объединении информации всех домохозяйств) и не так много вычислительной мощности, метод проб и ошибок без каких-либо указаний потребует очень много времени.

Я был бы признателен за некоторые помощь и мысли о том, как передавать данные через модель.

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...