Данные тестирования машинного обучения - PullRequest
0 голосов
/ 02 апреля 2019

Я новичок в машинном обучении, и это может быть немного глупым вопросом.

Я реализовал свою модель и ее работу.У меня есть вопрос о запуске его на данных тестирования.Это проблема двоичной классификации.Если я знаю пропорции классов в тестовых данных, как я могу использовать их, чтобы улучшить мою модель или улучшить прогнозы, сделанные моделью?Допустим, 75% относятся к классу 1 и 25% - к классу 0 данных тестирования.

Любая помощь очень ценится. Спасибо

Ответы [ 2 ]

1 голос
/ 02 апреля 2019

Ну, во-первых, ваши данные должны быть сбалансированы. И часто в проблемах с машинным обучением данные тестов парадигмы трактуются как нечто, о чем вы ничего не знаете. Любая информация, касающаяся улучшения вашей модели с использованием некоторого набора данных, выполняется с помощью набора данных проверки. Ищите набор данных проверки. Зачем вам нужен набор данных проверки, балансировка набора данных. Эти условия помогут вам продолжить.

0 голосов
/ 02 апреля 2019

Существуют два различных подхода к решению проблемы несбалансированных данных: подход на уровне алгоритма и на уровне данных.

Подход на основе алгоритма: Как уже упоминалось выше, алгоритмы ML наказывают за ложные срабатывания и ложные отрицанияв равной степени.Способ противостоять этому - модифицировать сам алгоритм, чтобы повысить прогнозирующую производительность в классе меньшинства.Это может быть выполнено с помощью обучения на основе распознавания или обучения с учетом затрат.Не стесняйтесь проверять Drummond & Holte (2003);Элкан (2001);и Manevitz & Yousef (2001), если вы хотите узнать больше об этой теме.

Подход к данным: Это состоит из повторной выборки данных для смягчения эффекта, вызванного классомдисбаланс.Подход данных получил широкое признание среди практиков, поскольку он более гибкий и позволяет использовать новейшие алгоритмы.Двумя наиболее распространенными методами являются избыточная выборка и недостаточная выборка.

Избыточная выборка увеличивает число представителей меньшинства в обучающем наборе.Преимущество передискретизации состоит в том, что никакая информация из исходного обучающего набора не теряется, поскольку все наблюдения из классов меньшинства и большинства сохраняются.С другой стороны, это склонно к переоснащению. Недостаточная выборка, , в отличие от избыточной выборки, направлена ​​на уменьшение числа основных выборок для сбалансирования распределения классов.Поскольку он удаляет наблюдения из исходного набора данных, он может отбросить полезную информацию.

для дальнейшего ознакомительного посещения: https://medium.com/james-blogs/handling-imbalanced-data-in-classification-problems-7de598c1059f

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...