Отсутствующие значения в ARFF (Weka) - PullRequest
2 голосов
/ 16 мая 2011

Как классификаторы (такие как деревья решений) в Weka будут интерпретировать '?' (что означает пропущенные значения в файлах ARFF) на этапе обучения? Будет ли Weka просто заменить его каким-либо предопределенным значением (например, «0» или «ложь»), или это каким-то образом повлияет на тренировочный процесс?

1 Ответ

7 голосов
/ 17 мая 2011

Помимо обработки пропущенного значения как значения атрибута самостоятельно, в случае классификатора J48 любое разбиение атрибута с пропущенным значением будет выполняться с весами, пропорциональными частотам наблюдаемых не пропущенных значений.Это задокументировано в учебнике Виттена и Фрэнка, Практические инструменты и методы машинного обучения Data Mining (2005, 2nd. Ed., P. 63 and p. 191), который затем сообщил, что

в конечном итоге каждая из частей экземпляра достигнет конечного узла, и решения в этих конечных узлах должны быть перекомпонованы с использованием весовых коэффициентов, перколированных к листьям.

Дополнительная информация оОбработка пропущенных значений в деревьях решений, например суррогатное разбиение в CART (и вопреки C4.5 или его преемнику J48), можно найти в разделе вики для Деревья классификации ;Использование вменения также обсуждается в нескольких статьях, например, Обработка пропущенных данных в деревьях: суррогатное разбиение или статистическое вменение .

...