современные алгоритмы размерности - PullRequest
2 голосов
/ 12 марта 2011

Мы знаем, что существуют алгоритмы, позволяющие уменьшить размерность наборов данных, таких как PCA и Isomap

  • Каков уровень техники в уменьшении размерности для наборов данных.
  • Doу вас есть пример, может быть, на MATLAB?

Допустим, у нас есть набор данных с 100 000 атрибутов, таких как Набор данных Dorothea (Химические соединения, представленные структурными молекулярными признаками, должны быть классифицированы какактивный (связывание с тромбином) или неактивный. Это один из 5 наборов данных задачи выбора функции NIPS 2003.)

Data Set Characteristics:   Multivariate

Number of Instances:        1950

Area:                       Life

Attribute Characteristics:  Integer

Number of Attributes:       100000

Date Donated                2008-02-29

Associated Tasks:           Classification

Missing Values?             N/A

Number of Web Hits:         17103

Ответы [ 2 ]

1 голос
/ 12 марта 2011

Специально для Matlab, вы можете почерпнуть некоторые идеи из руководства по Statistics Toolbox .

Найдите разделы Выбор элементов и Преобразование элементов. Также я бы попробовал SVD, FastMap и RobustMap. Вам нужно будет немного прочитать о каждом из них и решить, какой из них наиболее подходит для ваших данных.

0 голосов
/ 13 марта 2011

Maximum Variance Unfolding - особенно популярная техника в наши дни.Аналогичный подход под названием «Сохранение структуры с внедрением» получил лучшую работу на ICML 2009. Несколько других методов включают лапласианские собственные карты, локально линейное вложение и ядро ​​PCA.

...