Как бороться с предвзятой функцией в машинном обучении (дата) - PullRequest
1 голос
/ 28 мая 2019

У меня есть модель, которая предсказывает продолжительность жизни лошади.Набор данных имеет выборки с 1980 по 2019 год, и среди особенностей есть один, называемый дата рождения , помеченный с помощью продолжительности жизни в годах для каждой лошади.Проблема в том, что зная, что лошади обычно живут от 20 до 30 лет, если мы посмотрим с 1980 по 1990 год, у нас будет полный список лошадей и их продолжительность жизни, но с 2000 по 2019 год мы видим только образцы лошадей, которые родились и умерлив течение этого промежутка времени, но не тех, которые в настоящее время живут, поэтому birh_date является предвзятой функцией.

Есть ли способ использовать функцию birh_date , не имеябеспокоиться о предвзятых данных или какой-то технике, чтобы минимизировать его влияние на окончательные прогнозы?

...