Разница между выбором объекта, извлечением объекта, весом элемента - PullRequest
12 голосов
/ 29 января 2010

Я немного смущен тем, что означает «выбор / извлечение / весовые характеристики» и разница между ними. Когда я читаю литературу, иногда я чувствую себя потерянным, так как нахожу термин, использованный довольно свободно, мои основные проблемы -

  1. Когда люди говорят о частоте функций, о наличии функций - это выбор функций?

  2. Когда люди говорят об алгоритмах, таких как информационное усиление, максимальная энтропия, - это все равно выбор функций.

  3. Если я обучу классификатор - с набором функций, который просит классификатор отметить положение слова в документе в качестве примера - будет ли все еще вызываться этот выбор функции?

Спасибо Рахул Дигхе

Ответы [ 3 ]

17 голосов
/ 17 декабря 2010

Rahul-

Все это хорошие ответы. Единственное, что я хотел бы упомянуть, это то, что принципиальное различие между отбором и извлечением связано с тем, как вы относитесь к данным.

Элемент Извлечение * Методы являются преобразующими, то есть вы применяете преобразование к своим данным, чтобы спроецировать их в новое пространство признаков с более низким измерением. PCA и SVD являются примерами этого.

Элемент Выбор Методы выбора элементов из исходного набора на основе некоторых критериев. Прирост информации, корреляция и взаимная информация - это всего лишь критерии, которые используются для фильтрации неважных или избыточных функций. Встроенные методы или методы-оболочки, как они называются, могут использовать специализированные классификаторы для выбора объектов и одновременной классификации набора данных.

Действительно хороший обзор проблемного пространства дан здесь .

Удачи!

8 голосов
/ 19 февраля 2010

Функция извлечения: уменьшить размерность (линейный или не линейная) проекция D-мерного вектора на d-мерную вектор (d

Выбор элемента: уменьшить размерность, выбрав подмножество исходных переменных. Пример: выбор вперед или назад

6 голосов
/ 29 января 2010

Feature Selection - это процесс выбора «интересных» функций из вашего набора для дальнейшей обработки.

Частота функции - это просто частота, с которой появляется функция.

Получение информации, Максимальная энтропия и т. Д. - это методы взвешивания, в которых используется частота элемента, что, в свою очередь, позволяет выполнять выбор элемента.

Думайте об этом так:

Вы анализируете корпус и создаете матрицу термина / документа. Эта матрица начинается с подсчета терминов и того, в каком документе они появляются (простая частота).

Чтобы сделать эту матрицу более значимой, вы взвешиваете термины, основанные на некоторой функции, включая частоту (например, частота документа, инверсная по частоте, информационный прирост, максимальная энтропия). Теперь эта матрица содержит веса или важность каждого члена по отношению к другим членам в матрице.

Получив это, вы можете использовать выбор функций, чтобы сохранить только самые важные термины (если вы делаете такие вещи, как классификация или категоризация) и выполнить дальнейший анализ.

...