A Дерево решений , пожалуй, лучшее место для начала.
Само дерево представляет собой визуальную сводку ранжирования важности признаков (или значимых переменных , как указано в ОП).
дает вам визуальное представление всего
классификационный / регрессионный анализ (в виде бинарного дерева),
что отличает его от любых других аналитических / статистических
техника, которую я знаю;
алгоритмы дерева решений требуют очень небольшой предварительной обработки ваших данных, без нормализации, без масштабирования, без преобразования дискретных переменных в целые числа (например, Male / Female => 0/1); они могут принимать как категориальные (дискретные), так и непрерывные переменные, и многие реализации могут обрабатывать неполные данные (значения, отсутствующие в некоторых строках матрицы данных); и
опять же, само дерево представляет собой визуальную сводку ранжирования важности признаков
(т. е. значимых переменных ) - наиболее значимой переменной является
корневой узел, и является более значимым, чем два дочерних узла, которые в
очередь более значительна, чем их четверо комбинированных детей. «значимость» здесь означает объясненный процент дисперсии (по отношению к некоторой переменной отклика, то есть «целевой переменной» или тому, что
ты пытаешься предсказать). Одно условие: из визуального осмотра
дерево решений, которое вы не можете отличить значение переменной от
среди узлов одного ранга.
Если вы еще не использовали их, вот как работает дерево решений: алгоритм будет проходить через каждую переменную (столбец) в ваших данных и каждое значение для каждой переменной и разбивать ваши данные на два подмножества на основе каждого из эти ценности. Какой из этих расщеплений фактически выбран алгоритмом, то есть, что является критерием расщепления? Конкретная комбинация переменная / значение, которая «очищает» данные наиболее (то есть максимизирует информационный прирост ), выбирается для разделения данных (эта комбинация переменная / значение обычно указывается как метка узла). Эта простая эвристика выполняется только рекурсивно, пока оставшиеся подмножества данных не станут чистыми или дальнейшее разбиение не увеличит прирост информации.
Что это говорит вам о "важности" переменных в вашем наборе данных? Важность скважины указывается близостью к корневому узлу, т. Е. Иерархическому уровню или rank .
Одно предложение: деревья решений обрабатывают как категориальные, так и дискретные данные, как правило, без проблем; однако, по моему опыту, алгоритмы дерева решений всегда работают лучше, если переменная ответа (переменная, которую вы пытаетесь предсказать, используя все другие переменные) является дискретной / категориальной, а не непрерывной. Похоже, что ваш, вероятно, является непрерывным, и в этом случае он будет рассматривать его дискретизацию (если только это не делает бессмысленным весь анализ). Чтобы сделать это, просто выберите значения переменных ответа, используя параметры (размер ячейки, номер ячейки и ребра ячейки), которые имеют смысл с вашей проблемной областью, например, если ваша величина r / v состоит из «непрерывных значений» от 1 до 100, вы можете разумно объединить их в 5 корзин, 0-20, 21-40, 41-60 и так далее.
Например, из вашего Вопроса, предположим, что одна переменная в ваших данных - X, и она имеет 5 значений (10, 20, 25, 50, 100); Предположим также, что разделение ваших данных на эту переменную с третьим значением (25) приводит к двум почти чистым подмножествам - одно низкое значение и одно высокое значение. Пока эта чистота была выше, чем для подмножеств, полученных путем разделения на другие значения, данные будут разделяться на эту пару переменная / значение.
RapidMiner действительно имеет реализацию дерева решений , и, кажется, в Интернете довольно много учебных пособий (например, с YouTube, здесь и здесь * ). (Обратите внимание, я не использовал модуль дерева решений в R / M, и при этом я вообще не использовал RapidMiner.)
Другой набор техник, которые я бы рассмотрел, обычно группируется под рубрикой Уменьшение размеров . Извлечение функций и Выбор функций - это, пожалуй, два наиболее распространенных термина после D / R.Наиболее широко используемым является PCA или анализ главных компонент , который основан на разложении по собственному вектору ковариационной матрицы (получено из вашей матрицы данных).
Одним прямым результатом этой декомпозиции собственного вектора является доля изменчивости данных, учитываемая каждым собственным вектором.Именно из этого результата вы можете определить, сколько измерений необходимо объяснить, например, 95% изменчивости в ваших данных
Если у RapidMiner есть PCA или другой функционально подобный метод уменьшения размеров, неясно, где найтиЭто.Я знаю, что RapidMiner имеет расширение R , которое, конечно, позволяет вам получить доступ к R внутри RapidMiner.R имеет множество библиотек PCA (пакетов).Те, о которых я упоминаю ниже, все доступны на CRAN , что означает, что любой из пакетов PCA соответствует минимальным требованиям к пакетам для документации и виньеток (примеры кода).Я могу порекомендовать pcaPP (Робастный PCA от Projection Pursuit).
Кроме того, я могу порекомендовать два превосходных пошаговых руководства по PCA.Первый из Справочник по технической статистике NIST .Вторым является учебник для независимого анализа компонентов (ICA), а не PCA, но я упомянул его здесь, потому что это превосходное учебное пособие, и эти два метода используются для сходных целей.