Должен ли tfidf быть скомбинирован с наборами поездов и тестов? - PullRequest
0 голосов
/ 28 января 2020

https://medium.com/machine-learning-intuition/document-classification-part-3-detection-algorithm-support-vector-machines-gradient-descent-282316b0838e

В приведенном выше примере tfidf генерируется отдельно для поезда и тестового корпуса. Разве это не должно быть сгенерировано вместе, поскольку idf не будет одинаковым, когда тренировка и тестирование обрабатываются раздельно по сравнению с обработкой вместе? Спасибо.

# Vectorize the training data
X_train = vectorizer.fit_transform(train_corpus)

# Vectorize the testing data
X_test = vectorizer.transform(test_corpus)

1 Ответ

0 голосов
/ 28 января 2020

Вы не можете использовать тест для создания модели TF-IDF, потому что вы не можете предполагать что-либо о наборе тестов.

Тем не менее, вам все еще нужен способ представления слов в тест установлен как числа. Вот почему вы должны тренироваться на наборе поездов (vectorizer.fit_transform(train_corpus)), но только преобразовывать (без обучения) тестовый набор (vectorizer.transform(test_corpus)).

...