У меня есть общий вопрос по машинному обучению, который можно применить к любому алгоритму. Предположим, у меня есть особая проблема, скажем, прогнозирование победы / поражения футбольной команды. Функции, которые я выбираю, - это количество сна, которое каждый игрок получает перед игрой, анализ настроений при освещении новостей и т. Д. c и c.
В этом сценарии есть закономерность или корреляция (что-то только алгоритм машинного обучения может уловить), который происходит только около 5% времени. Но когда это происходит, это очень предсказывает предстоящий матч.
Как настроить алгоритм машинного обучения для обработки такого случая, когда он может отбрасывать большинство выборок как шум. Например, рассмотрим двоичный SVM. Если бы был способ отбросить большинство «шумных» выборок, произошло бы намного меньшее переоснащение, потому что гиперплоскость не должна была бы устранять ошибку из этих выборок.
Регуляризация могла бы помочь в этом случае, но из-за очень низкого процента прогнозирующей информации, есть ли способ, которым мы можем кодировать алгоритм, чтобы отбрасывать эти выборки в процессе обучения и отказываться прогнозировать определенные выборки тестовых данных?
Я также прочитал доверительные интервалы, но они кажутся мне скорее аналитическим c инструментом, чем чем-то, что можно использовать в алгоритме.
Я думал, что использую другой мл-алгоритм, который использует хорошая идея, чтобы решить, какие тестовые образцы являются хранителями, может быть хорошей идеей.
Любые ответы, использующие любой алгоритм машинного обучения (например, svm, нейронный net, случайный лес) в качестве примера, будут высоко оценены. Любые предложения о том, где искать, также будут хороши (Google, как правило, мой друг, но не в этот раз). Пожалуйста, дайте мне знать, если я смогу перефразировать вопрос лучше. Спасибо.