Python - Как заставить алгоритм знать, какие данные принадлежат к какой группе и повысить точность прогнозирования - PullRequest
0 голосов
/ 24 апреля 2020

Обзор данных:

У меня есть кадр данных, как показано на следующем рисунке. В кадре данных имеются данные временных рядов с 01.01.2008 по 31.12.2019 для каждой компании (всего 600 компаний) в разных отраслевых категориях (всего 50 категорий).

Я пытался обучить данные с 01.01. С 2008 по 31.12.2019 для «каждой» компании, которая прогнозирует свои результаты в 2020 году (какой день будет успешным (1), а какой - неудачным (0))

Что я знаю, так это:

  1. Исторический график для каждой компании является одной из наиболее важных переменных для прогнозирования результатов.
  2. Компании в одной отрасли обычно используют сходный исторический шаблон.

enter image description here


Текущий метод :

Я просто помещаю данные временных рядов для каждой компании в алгоритм и получаю прогноз этого Компания.

Например, я беру данные Microsoft с 2008/01/01 по 2019/12/31 в качестве обучающего набора и передаю их в модель, такую ​​как случайный лес или другое ускорение, с go при помощи соответствующего gridsearch. А затем выполните аналогичный процесс для Toyota, чтобы получить прогноз Toyota.


Задача :

Мне нужно запустить 600 компаний одну за другой, и исторические данные из другой компании могут привести к различным результатам параметра gridsearch. Другими словами, я не создавал «одну» модель, которая может дать каждой компании лучший прогноз.

Кроме того, я подаю данные по одной, модель не может определить, какая компания принадлежит какой категории, ведущая худший прогноз.


Мои мысли и вопросы :

Я думал, что все названия компаний и категории станут фиктивными переменными. Однако, если я это сделаю, то будет фиктивная переменная 650 (600 названий компаний + 50 категорий). Я не думаю, что это хорошо для предсказания модели ...

Поэтому я думаю, возможно ли передать мультииндексный фрейм данных, как я опубликовал выше, в алгоритм, такой как случайный лес или adaboost ... и др c. и, таким образом, go может поймать, какой временной ряд принадлежит какой компании и какой категории.

Может ли кто-нибудь дать мне какое-то предложение и дать мне какое-то указание, что мне читать или что я могу сделать?

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...