Обработка дополнительных данных в Logisti c regression - PullRequest
0 голосов
/ 08 мая 2020

Я работаю с данными, которые содержат оценки и другие характеристики студентов, и пытаюсь предсказать, получат ли они высокую зарплату или нет, используя scikit-learn в python. Я столкнулся с проблемой, так как ученик не изучает весь предмет, его / ее оценка по предмету равна -1, если он не изучал предмет (ученик может изучать несколько предметов).

Ниже снимок взято из файла данных: Снимок

Я пытаюсь найти способ интерпретировать -1 таким образом, чтобы данные не сильно менялись.

My Подход:

  1. Возьмите процентили для каждого ученика, а затем возьмите среднее значение всех процентилей для каждого ученика, дав одно число для каждого ученика, с которым намного легче работать, но этот метод может потеряете некоторую информацию о распределении оценок.

  2. Заполните значение -1 средним значением оценок всех учащихся по этому предмету, но это не сработает, если данные смещены в сторону одна тема

Есть ли лучший способ справиться с такими данными?

1 Ответ

0 голосов
/ 08 мая 2020

Ваша «-1» сумма отсутствующих данных, поэтому вы спрашиваете, как подойти к задаче классификации с отсутствующими данными. См. здесь и здесь и здесь , среди многих других, для обсуждения этого topi c.

Пара важных соображений, которые приходят в голову:

  • Один из вариантов - «вменять» недостающие значения, что вы описываете с помощью «средних оценок». . " Этот подход часто требует предположения, что данные «отсутствуют случайно», что в вашем случае вряд ли будет правдой: например, плохой ученик с большей вероятностью не возьмет сложный предмет, поэтому пропущенные значения о чем-то вам говорят.

  • Использование регрессионных моделей (например, logisti c regression), как правило, потребует определенного типа вменения. Но есть и другие модели, такие как деревья решений или случайные леса, которые могут обрабатывать отсутствующие данные без вменения.

...