Question

Я пытаюсь развить навык, чтобы иметь дело с очень небольшим количеством помеченных образцов (250 помеченных / 20000 всего, 200 функций), практикующихся в Kaggle «Не перегонять» Набор данных (Traget_Practice предоставили все20000 целей).Я прочитал тонну статей и статей на эту тему, но ничего из того, что я пробовал, не было улучшено простым упорядоченным результатом SVM (лучше всего 75 / auc 85) или любым другим результатом алгоритма (LR, K-NN, NaiveBayes, RF, MLP).Я считаю, что результат может быть лучше (в таблице лидеров они превышают 95)

То, что я пробовал без успеха:

Удалить выбросы Я пытался удалить 5% -10% выбросов с помощью EllipticEnvelope и IsolationForest.
Выбор функций Я пробовал RFE (с CV или без CV) + L1 / L2, регуляризованная LogisticRegression и SelectKBest (с chi2).
Методы под наблюдением Я пробовал совместное обучение с различными комбинациями двух дополнительных алгоритмов и: 100-100: разделенные функции.Также я попробовал LabelSpreading, но я не знаю, как предоставить наиболее неопределенные выборки (я пробовал предсказания из других алгоритмов, но было много ошибочно помеченных образцов, но безуспешно).
Ансамблевые классификаторы StackingClassifier со всеми возможными комбинациями алгоритмов, и это также не улучшает результат (лучше, чем SVM acc75 / auc 85).

Кто-нибудь может дать мне совет, что я делаю неправильно или что еще попробовать?

Как бороться с небольшим количеством помеченных образцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как бороться с небольшим количеством помеченных образцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов