Как разделить данные с помощью train_test_split в Python Numpy на набор данных для обучения, тестирования и проверки? Раскол не должен быть случайным - PullRequest
0 голосов
/ 21 ноября 2019

Я хочу разделить категорию данных на обучающие, тестовые и проверочные наборы. Например: если у нас есть 3 категории положительных, отрицательных и нейтральных в наборе данных. Позитивная категория делится на обучение, тестирование и проверку. И то же самое с двумя другими категориями. Коэффициент разделения составляет 80% данных для обучения и 20% для тестирования. Из 80% данных обучения, 10% для данных проверки. Но самое главное, разделение данных не должно быть случайным.

1 Ответ

0 голосов
/ 21 ноября 2019

Вы можете использовать параметр stratify, чтобы сделать это:

Например: Если вы использовали для этого набор данных Iris.

from sklearn import cross_validation, datasets 

X = iris.data[:,:2]
y = iris.target

cross_validation.train_test_split(X,y,stratify=y)

Вы можете прочитать больше здесь:https://scikit -learn.org / стабильный / модули / генерироваться / sklearn.model_selection.train_test_split.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...