Как бороться с небольшим количеством помеченных образцов? - PullRequest
0 голосов
/ 04 мая 2019

Я пытаюсь развить навык, чтобы иметь дело с очень небольшим количеством помеченных образцов (250 помеченных / 20000 всего, 200 функций), практикующихся в Kaggle «Не перегонять» Набор данных (Traget_Practice предоставили все20000 целей).Я прочитал тонну статей и статей на эту тему, но ничего из того, что я пробовал, не было улучшено простым упорядоченным результатом SVM (лучше всего 75 / auc 85) или любым другим результатом алгоритма (LR, K-NN, NaiveBayes, RF, MLP).Я считаю, что результат может быть лучше (в таблице лидеров они превышают 95)

То, что я пробовал без успеха:

  • Удалить выбросы Я пытался удалить 5% -10% выбросов с помощью EllipticEnvelope и IsolationForest.

  • Выбор функций Я пробовал RFE (с CV или без CV) + L1 / L2, регуляризованная LogisticRegression и SelectKBest (с chi2).

  • Методы под наблюдением Я пробовал совместное обучение с различными комбинациями двух дополнительных алгоритмов и: 100-100: разделенные функции.Также я попробовал LabelSpreading, но я не знаю, как предоставить наиболее неопределенные выборки (я пробовал предсказания из других алгоритмов, но было много ошибочно помеченных образцов, но безуспешно).
  • Ансамблевые классификаторы StackingClassifier со всеми возможными комбинациями алгоритмов, и это также не улучшает результат (лучше, чем SVM acc75 / auc 85).

Кто-нибудь может дать мне совет, что я делаю неправильно или что еще попробовать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...