Прогнозирующая модель, основанная на главных компонентах, когда новые данные имеют разные переменные - PullRequest
0 голосов
/ 17 октября 2019

Я построил модель логистической регрессии для классификации совокупности документов. Зависимая переменная - это тип документа (например, A или B), в то время как зависимые переменные из-за размерности являются первыми 2 компонентами, полученными путем выполнения анализа основных компонентов (PCA) (или разложения по одному значению (SVD)) настолбцы (термины) документа / матрицы терминов.

Вопрос заключается в следующем: в новом корпусе документов (и, следовательно, в другой матрице документов / терминов) методологически правильно использовать ту же модель, если первый2 компонента получены из другого набора переменных (терминов)?

...