По существу, X
содержит характеристики данных, которые являются входными данными для модели, в то время как y
содержит фактические метки данных, означающие, к какому классу они относятся, что соответствует выходным данным модели.
В контролируемом машинном обучении у вас есть маркированный набор данных, из которого модель может извлечь уроки, а затем применить его к новым невидимым данным. Обучающий набор, о котором вы говорите, состоит из известных пар функций X
и меток y
. С помощью этих данных вы можете научить классификатор предсказывать, какой класс y'
имеет новая точка данных X'
. Это может быть использовано, например, при обнаружении мошенничества с кредитными картами. Основываясь на исторических c особенностях транзакций (входные функции, X
), мы изучаем классификатор, который предсказывает, является ли это мошенничеством (выходные данные, y
). Затем мы можем отслеживать новые транзакции и, если модель говорит о возможном мошенничестве, мы можем действовать соответственно. Чтобы не допустить переоснащения классификатора, вы разбиваете данные на две части. Обучающая часть и тестовая часть. Учебная часть используется для фактического обучения классификатора, в то время как тестовая часть используется для предсказания того, насколько хорошо классификатор работает с невидимыми данными.