Подготовка данных для алгоритма классификации - PullRequest
0 голосов
/ 26 декабря 2018

Я должен подготовить и классифицировать набор данных, состоящий из 100 000 + строк и 105 переменных, и я ищу советы. (Я использую R)

в основном, набор полон фиктивных переменныхи пропущенные значения (44% от полного набора данных).

и Idk, что делать с NA, я разделен между двумя идеями: I] 1 - исключить каждый столбец, который имеет более 70%значения затуманивания 2- Замените пропущенные значения средним или медианным в оставшихся столбцах

II] исключите все пропущенные значения

как вы думаете?

Есть ли что-то еще, что я могу сделать, чтобы подготовить данные?(кроме работы с АН)

1 Ответ

0 голосов
/ 27 декабря 2018

Тема вменения пропущенных ценностей имеет долгую историю в социальных науках, уходя, по крайней мере, в то время, когда я был аспирантом в 1980-х годах и должен был объяснить профессору политологии в Университете штата Мичиган, почемуона не смогла повторить факторный анализ, который она проводила ранее, потому что SPSS исключил среднее замещение пропущенных значений из процедуры факторного анализа.

Существует большое разнообразие исследований (и мнений) о том, как обрабатывать недостающие данные в статистическом анализе.Например, в главе 25 из анализа данных с использованием регрессионных и многоуровневых / иерархических моделей Гельман и Хилл описывают несколько подходов для расчета одной переменной, а также нескольких переменных.

Чтобы выбрать стратегию вменения для конкретного набора данных, необходимо оценить, почему отсутствуют отсутствующие данные.Гельман и Хилл рассматривают четыре основные категории «механизмов пропажи», в том числе:

  1. Отсутствие совершенно случайно (вероятность пропуска одинакова для всех юнитов / субъектов)
  2. Отсутствие случайно (например, различающиеся коэффициенты ответов по расам)
  3. Отсутствие, которое зависит от ненаблюдаемых предикторов
  4. Отсутствие, которое зависит от самого пропущенного значения (например, люди, зарабатывающие более 100 000 долларов, отказываются отвечать на вопрос о доходах)

Таким образом, без анализа конкретного набора данных оригинального плаката по сравнению с механизмами пропусков, конкретные указания относительно того, какую методику вменения использовать, неуместны.Дополнительное исследование вменения пропущенных данных можно найти в Стратегии обработки пропущенных значений .

...