Question

Как классификаторы (такие как деревья решений) в Weka будут интерпретировать '?' (что означает пропущенные значения в файлах ARFF) на этапе обучения? Будет ли Weka просто заменить его каким-либо предопределенным значением (например, «0» или «ложь»), или это каким-то образом повлияет на тренировочный процесс?

chl · Answer 1 · 17 мая 2011

Помимо обработки пропущенного значения как значения атрибута самостоятельно, в случае классификатора J48 любое разбиение атрибута с пропущенным значением будет выполняться с весами, пропорциональными частотам наблюдаемых не пропущенных значений.Это задокументировано в учебнике Виттена и Фрэнка, Практические инструменты и методы машинного обучения Data Mining (2005, 2nd. Ed., P. 63 and p. 191), который затем сообщил, что

в конечном итоге каждая из частей экземпляра достигнет конечного узла, и решения в этих конечных узлах должны быть перекомпонованы с использованием весовых коэффициентов, перколированных к листьям.

Дополнительная информация оОбработка пропущенных значений в деревьях решений, например суррогатное разбиение в CART (и вопреки C4.5 или его преемнику J48), можно найти в разделе вики для Деревья классификации ;Использование вменения также обсуждается в нескольких статьях, например, Обработка пропущенных данных в деревьях: суррогатное разбиение или статистическое вменение .

Отсутствующие значения в ARFF (Weka)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Отсутствующие значения в ARFF (Weka)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы