Тема вменения пропущенных ценностей имеет долгую историю в социальных науках, уходя, по крайней мере, в то время, когда я был аспирантом в 1980-х годах и должен был объяснить профессору политологии в Университете штата Мичиган, почемуона не смогла повторить факторный анализ, который она проводила ранее, потому что SPSS исключил среднее замещение пропущенных значений из процедуры факторного анализа.
Существует большое разнообразие исследований (и мнений) о том, как обрабатывать недостающие данные в статистическом анализе.Например, в главе 25 из анализа данных с использованием регрессионных и многоуровневых / иерархических моделей Гельман и Хилл описывают несколько подходов для расчета одной переменной, а также нескольких переменных.
Чтобы выбрать стратегию вменения для конкретного набора данных, необходимо оценить, почему отсутствуют отсутствующие данные.Гельман и Хилл рассматривают четыре основные категории «механизмов пропажи», в том числе:
- Отсутствие совершенно случайно (вероятность пропуска одинакова для всех юнитов / субъектов)
- Отсутствие случайно (например, различающиеся коэффициенты ответов по расам)
- Отсутствие, которое зависит от ненаблюдаемых предикторов
- Отсутствие, которое зависит от самого пропущенного значения (например, люди, зарабатывающие более 100 000 долларов, отказываются отвечать на вопрос о доходах)
Таким образом, без анализа конкретного набора данных оригинального плаката по сравнению с механизмами пропусков, конкретные указания относительно того, какую методику вменения использовать, неуместны.Дополнительное исследование вменения пропущенных данных можно найти в Стратегии обработки пропущенных значений .