На этот вопрос не так просто ответить, потому что он зависит от типа значений NA.
Являются ли значения NA по какой-то случайной причине?Или есть причина, по которой они отсутствуют (в опросе нет подходящего ответа с несколькими вариантами ответа или, может быть, люди не хотели бы отвечать)
Во-первых, было бы хорошо использовать простую стратегию вменения, чтобыВы можете разместить свою модель на данных.Таким образом, я имею в виду что-то вроде среднего вменения или выборки из предполагаемого распределения вероятности.Или даже выборочные значения наугад.Обратите внимание, что если вы просто берете среднее значение существующих значений, вы изменяете статистику набора данных, то есть вы уменьшаете стандартное отклонение.Об этом следует помнить при выборе вашей модели.
Во-вторых, вам придется применить свои знания предметной области, чтобы найти правильные значения заполнения.
По поводу вашего последнего вопроса: если вы хотитеЗаполнив значения моделью машинного обучения, вы можете использовать другие функции набора данных и неявно предположить зависимость между отсутствующим элементом и другими функциями.В зависимости от модели, которую вы позже будете использовать для прогнозирования, вам может не пригодиться промежуточная оценка.
Надеюсь, это поможет, но правильный ответ действительно зависит от данных.