Проблема прогнозирования единичной выборки при уменьшении размеров тренировочного набора с LDA - PullRequest
0 голосов
/ 13 октября 2018

У меня проблема с контролируемым методом классификации, который я использую для своих данных.

Давайте подумаем, что мы тренируем наш алгоритм с данными (N = 70) после сокращения измерений со 100 до 2 с помощью LDAМетод уменьшения размерности.

Теперь мы хотели бы предсказать класс 71-й выборки, класс которой нам совершенно неизвестен.Тем не менее, он все еще имеет 100 функций;поэтому мы должны уменьшить его размеры.

Это кажется простым на первый взгляд: я могу использовать характеристики преобразования первого сокращения.Например, в python:

clf.fit(X,Y)
lda = LinearDiscriminantAnalysis(n_components=2)
flda = lda.fit(X, Y)
X_lda = flda.transform(X)

я сохранил подходящие свойства обучающих данных.X_p мой единственный образец.Поэтому, когда я снова использую 'flda' для преобразования, используется та же самая информация о подгонке:

X_p = flda.transform(X_p.reshape(1, -1))

Однако, она не предсказывает должным образом!Для тестирования я использовал свои первые данные N = 70.Извлеките один из них (теперь это N = 69).Я использовал 70-е данные в качестве тестового образца.И он снова не предсказал должным образом.

Когда я сравнил свои предыдущие данные (N = 70) и новые (N = 69), я увидел, что каждое число изменилось!Если я что-то не упускаю (надеюсь, что я пропускаю, и вы можете сказать мне, что мне не хватает) Уменьшение размерности LDA не применимо для реальных приложений машинного обучения, потому что только одна информация может изменить все.

Какобратите внимание, что график сокращенных данных не меняется, несмотря на то, что все числа существенно меняются (что означает, что относительные местоположения точек не меняются).

Знаете ли вы, как уменьшение размерности LDA используется в реальном машинном обученииПриложения?Что я должен сделать, чтобы протестировать один образец в следующем порядке:

  • Уменьшить размеры до 2 для тренировочных данных
  • Уменьшить измерения до 2 для тестовых данных
  • Predict!

без использования той же характеристики преобразования?

...