Я не опытный программист. Использовал пользовательский интерфейс потока, чтобы попытаться построить некоторые модели в autoML.
Я понимаю, что программное обеспечение с открытым исходным кодом мало что дает в плане настройки функций, поскольку эта функция оставлена для коммерческого продукта.
Мне было интересно, есть ли простые шаги, которые я могу предпринять с помощью интерфейса потока, чтобы помочь улучшить функции?
Например, у меня есть один набор данных с чем-то вроде 800 функций. Я думаю, что многие из них являются дублирующими / коррелированными.
Можно ли уменьшить / свернуть их, используя модель PCA, встроенную в поток?
Если так, может кто-нибудь предложить несколько советов / шагов, как это сделать? Я не уверен, как это осуществить?
Я предполагаю, что это будет что-то вроде:
загрузить набор данных поезда -> создать модель PCA -> использовать модель PCA, чтобы уменьшить количество функций-> запустить autoML для результирующего набора данных
затем
как применить то же самое для оценки набора данных тестирования?
имеет ли это смысл?
Спасибо!