Как применить PCA, используя интерфейс потока перед AutoML - PullRequest
1 голос
/ 28 октября 2019

Я не опытный программист. Использовал пользовательский интерфейс потока, чтобы попытаться построить некоторые модели в autoML.

Я понимаю, что программное обеспечение с открытым исходным кодом мало что дает в плане настройки функций, поскольку эта функция оставлена ​​для коммерческого продукта.

Мне было интересно, есть ли простые шаги, которые я могу предпринять с помощью интерфейса потока, чтобы помочь улучшить функции?

Например, у меня есть один набор данных с чем-то вроде 800 функций. Я думаю, что многие из них являются дублирующими / коррелированными.

Можно ли уменьшить / свернуть их, используя модель PCA, встроенную в поток?

Если так, может кто-нибудь предложить несколько советов / шагов, как это сделать? Я не уверен, как это осуществить?

Я предполагаю, что это будет что-то вроде:

загрузить набор данных поезда -> создать модель PCA -> использовать модель PCA, чтобы уменьшить количество функций-> запустить autoML для результирующего набора данных

затем

как применить то же самое для оценки набора данных тестирования?

имеет ли это смысл?

Спасибо!

...