Легкий GBM с коррелированными / кластерными / зависимыми предсказаниями - PullRequest
0 голосов
/ 30 сентября 2019

У меня есть набор данных ниже, с тренировочным набором слева и тестовым набором справа. Оранжевые кружки на тренировочном наборе положительные, а синие отрицательные. Вы можете визуально увидеть, что есть определенные полосы вдоль оси Y, где есть положительные кластеры. Я ожидал бы, что этот шаблон будет продолжен в тестовом наборе.

Я пытаюсь обучить модели двоичной классификации LGBM, но я не уверен, как обращаться с этими данными. Я чувствую, что прогнозы будут соотноситься друг с другом по отношению к y, так что чем больше значений я прогнозирую для данного y, тем выше вероятность того, что другие значения также будут положительными.

Кроме того, тренировочный набор не имеет значений y ниже -200, поэтому я чувствую, что модель не будет обрабатывать те же, что и в тренировочном наборе. У меня есть отдельная функция, которая имеет расстояние от минимального значения.

Должен ли я обрабатывать это рекурсивно? Возможно, построить модель, основанную на других данных, чтобы делать прогнозы в обучающем и тестовом наборе, затем подсчитать прогнозируемые положительные результаты на каждом уровне y и использовать это как новую функцию?

Любые идеи о том, как подойти к этому, будут оценены.

enter image description here

...