Прогнозировать непрерывное значение, если в данных много пропущенных значений - PullRequest
0 голосов
/ 10 апреля 2020

Я должен предсказать ожидаемую продолжительность жизни различных животных вида на основе имеющихся данных. У меня есть 400 признаков на животное, которые являются непрерывными значениями, однако из-за характера этих данных большинство этих значений в каждом ряду отсутствуют. Для не непрерывных результатов я решил использовать RandomForestClassifier, однако это не вариант для непрерывного выходного значения. Замена NaN на среднее дает очень плохие результаты, но, возможно, это потому, что я использовал неправильный метод. До сих пор я пытался использовать sklearn.SVR.

Поможет ли здесь перекрестная проверка? Если нет, то что может быть лучше для решения этой проблемы?

...