В модели ngram (символьная или пакет слов) мы должны убедиться, что словарь тестовых данных не используется для подгонки или обучения модели.
Это то, что склеарн функция TfidfVectorizer делает с двумя функциями (подгонка и преобразование).
так что, если у меня есть sklearn модель трубопровода:
model = Pipeline([
('tfidf', TfidfVectorizer()),
('svc', SVC())
])
и я передаю его функции перекрестной проверки:
cv = cross_val_score(model, data['text'], data['label'], cv=5, scoring='accuracy', n_jobs=-1)
Соответствует ли cross_val_score сценарию (соответствует тренировке ... затем трансформируется по тесту) в каждом фолде?
или он просто подходил модели один раз в начале (первый раз)?