У меня большой набор данных с 50k строк и 10k столбцов.Я пытаюсь подогнать эти данные, используя классификаторы в auto-sklearn.Из-за ограниченных ресурсов я разбил данные на партии и намереваюсь использовать дополнительное обучение.Можно ли использовать autosklearn.classification.AutoSklearnClassifier. fit () в первом пакете, а затем autosklearn.classification.AutoSklearnClassifier. refit () в остальных пакетах?Документация API гласит:
refit (X, y)
Переоборудование всех найденных моделей в соответствии с новыми данными.Необходимо при использовании перекрестной проверки.Во время обучения auto-sklearn подходит для каждой модели k раз в наборе данных, но не сохраняет обученную модель и поэтому не может использоваться для прогнозирования новых точек данных.Этот метод подходит всем моделям, найденным во время вызова, чтобы соответствовать данным.Этот метод может также использоваться вместе с несогласными, чтобы избежать использования только 66% данных тренировки для соответствия окончательной модели.Параметры:
X: массивоподобная или разреженная матрица формы = [n_samples, n_features] обучающие входные выборки.y: в виде массива, shape = [n_samples] или [n_samples, n_outputs] Цели.
Означает ли это, что восстановление действительно только в том случае, если для исходных данных используется перекрестная проверка или в первой строкеОзначает ли это, что последующие пакеты данных могут быть переобучены по той же модели?
Есть идеи / мысли?