WEKA: проблема с атрибутивными шкалами - PullRequest
2 голосов
/ 02 мая 2011

У меня есть обучающие наборы данных и несколько наборов тестов (я классифицирую экземпляры в структуре кластеризации, поэтому экземпляры тестового набора вычисляются на лету).

Атрибуты экземпляров имеют разные масштабы (первый изменяется от 0 до 1, а второй от 0 до 100).

Как мои классификаторы (логистическая регрессия и SMO) справляются с тем фактом, что они не имеют всего набора тестов одновременно?

Другими словами, как они работают с различными атрибутами масштаба, если они не знают, какое максимальное значение в тестовом наборе?

спасибо

1 Ответ

1 голос
/ 02 мая 2011

Согласно Weka Javadocs , SMO "нормализует все атрибуты по умолчанию. (Обратите внимание, что коэффициенты в выходных данных основаны на нормализованных / стандартизированных данных, а не на исходных данных.)" Т.е. вы Вы получите ошибочную нормализацию, если ваш тренировочный набор не охватывает весь диапазон для каждого атрибута. Насколько это плохо, зависит от ваших данных.

Я предлагаю вам попробовать тренироваться как с нормализацией, так и без нее (используйте setFeatureSpaceNormalization(false), чтобы выключить ее) и посмотреть, что работает лучше.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...