Я пытаюсь развить навык, чтобы иметь дело с очень небольшим количеством помеченных образцов (250 помеченных / 20000 всего, 200 функций), практикующихся в Kaggle «Не перегонять» Набор данных (Traget_Practice предоставили все20000 целей).Я прочитал тонну статей и статей на эту тему, но ничего из того, что я пробовал, не было улучшено простым упорядоченным результатом SVM (лучше всего 75 / auc 85) или любым другим результатом алгоритма (LR, K-NN, NaiveBayes, RF, MLP).Я считаю, что результат может быть лучше (в таблице лидеров они превышают 95)
То, что я пробовал без успеха:
Удалить выбросы Я пытался удалить 5% -10% выбросов с помощью EllipticEnvelope и IsolationForest.
Выбор функций Я пробовал RFE (с CV или без CV) + L1 / L2, регуляризованная LogisticRegression и SelectKBest (с chi2).
- Методы под наблюдением Я пробовал совместное обучение с различными комбинациями двух дополнительных алгоритмов и: 100-100: разделенные функции.Также я попробовал LabelSpreading, но я не знаю, как предоставить наиболее неопределенные выборки (я пробовал предсказания из других алгоритмов, но было много ошибочно помеченных образцов, но безуспешно).
- Ансамблевые классификаторы StackingClassifier со всеми возможными комбинациями алгоритмов, и это также не улучшает результат (лучше, чем SVM acc75 / auc 85).
Кто-нибудь может дать мне совет, что я делаю неправильно или что еще попробовать?