Что указывать для моей цели в sklearn.model_selection.train_test_split ()? - PullRequest
0 голосов
/ 23 февраля 2020

Обычно, когда кодируется train_test_split(X, Y, test_size = 0.3), X означает входные данные, а Y означает целевые данные, но что именно означает целевые данные? Я прочитал учебники и до сих пор не понимаю.

Например, если у меня есть 2 класса, оба с одинаковым количеством объектов и экземпляров, что я могу применить в качестве целевых данных, чтобы мой классификатор мог правильно делать свою работу?

1 Ответ

0 голосов
/ 23 февраля 2020

По существу, X содержит характеристики данных, которые являются входными данными для модели, в то время как y содержит фактические метки данных, означающие, к какому классу они относятся, что соответствует выходным данным модели.

В контролируемом машинном обучении у вас есть маркированный набор данных, из которого модель может извлечь уроки, а затем применить его к новым невидимым данным. Обучающий набор, о котором вы говорите, состоит из известных пар функций X и меток y. С помощью этих данных вы можете научить классификатор предсказывать, какой класс y' имеет новая точка данных X'. Это может быть использовано, например, при обнаружении мошенничества с кредитными картами. Основываясь на исторических c особенностях транзакций (входные функции, X), мы изучаем классификатор, который предсказывает, является ли это мошенничеством (выходные данные, y). Затем мы можем отслеживать новые транзакции и, если модель говорит о возможном мошенничестве, мы можем действовать соответственно. Чтобы не допустить переоснащения классификатора, вы разбиваете данные на две части. Обучающая часть и тестовая часть. Учебная часть используется для фактического обучения классификатора, в то время как тестовая часть используется для предсказания того, насколько хорошо классификатор работает с невидимыми данными.

...