Я работаю с данными, которые содержат оценки и другие характеристики студентов, и пытаюсь предсказать, получат ли они высокую зарплату или нет, используя scikit-learn в python. Я столкнулся с проблемой, так как ученик не изучает весь предмет, его / ее оценка по предмету равна -1, если он не изучал предмет (ученик может изучать несколько предметов).
Ниже снимок взято из файла данных: Снимок
Я пытаюсь найти способ интерпретировать -1 таким образом, чтобы данные не сильно менялись.
My Подход:
Возьмите процентили для каждого ученика, а затем возьмите среднее значение всех процентилей для каждого ученика, дав одно число для каждого ученика, с которым намного легче работать, но этот метод может потеряете некоторую информацию о распределении оценок.
Заполните значение -1 средним значением оценок всех учащихся по этому предмету, но это не сработает, если данные смещены в сторону одна тема
Есть ли лучший способ справиться с такими данными?