Вопрос о требованиях нормализации выбора функций Weka CfssubsetEval - PullRequest
0 голосов
/ 05 июля 2019

Я студент в области наук о данных и у меня очень короткий вопрос относительно алгоритма выбора функций

CfsSubsetEval

(Холл, М. А. (1998). Выбор подмножества признаков на основе корреляции для машинного обучения. Кандидатская диссертация, 757 Университет Вайкато, Гамильтон, Новая Зеландия)

найдено в пакете интеллектуального анализа данных Weka

Мой вопрос: Должен ли я нормализовать данные (молекулярные дескрипторы) перед выбором объектов с помощью CfsSubsetEval?

Как я понимаю, перед применением этого алгоритма выбора объектов к набору данных, набор данных не необходимо нормализовать (например, разделить на стандартное отклонение и вычесть на среднее значение).

Это наблюдение подтверждается тезисом Холла: «CFS оперирует оригинальным пространством признаков, ..... можно интерпретировать с точки зрения исходных особенностей, а не с точки зрения трансформированного пространства. "

Поскольку пространство объектов дискретизировано, я понимаю, что оно эквивалентно нормализации, поскольку различные объекты сегментированы на равное количество диапазонов бинов.

Но я хотел бы быть абсолютно уверенным, поэтому вопрос. Надеюсь, что кто-нибудь здесь может просветить меня, желательно с цитатами на ссылки, которые можно привести.

С уважением

...