Разобраться с несколькими наблюдениями в машинном обучении - PullRequest
0 голосов
/ 20 сентября 2019

Я пытаюсь предсказать урожайность в соответствии с генотипами и данными об окружающей среде.Поля набора данных выглядят следующим образом:

gene_a, gene_b, ..., gene_z, location, repetition, year, yield

Сейчас год важен, но, поскольку я хочу делать прогнозы на будущее, я не учитываю будущие данные о погоде, поэтому мне приходится отклонять год.

Теперь генотип (столбцы от gene_a до gene_z) повторяется много раз (несколько наблюдений).Проблема возникает в том, что при оценке модели я получаю довольно хорошие результаты, но это может быть потому, что каждый генотип повторяется много раз (до 15).Если бы я полностью удалил один конкретный генотип из обучающих данных и попытался бы предсказать его выход позже с моделью, модель не будет работать очень хорошо.

Моя теория состоит в том, что в проверочном наборе есть ряды, которые имеют один и тот же генотип в обучающем наборе (по другим наблюдениям) и, таким образом, работают хорошо.Как бороться с этими дублированными строками, из-за которых моя модель работает очень хорошо, но не очень хорошо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...