Привет, я изучаю классификацию текста, и если у меня есть такой набор данных:

Мой вопрос: если я разделю обучение и тестирую набор из набора данных и выполняю извлечение объектов отдельно (я работаю со встраиванием слова).
Правильно ли передать функции из набора данных обучения и тестирования (имена: feature_array_trainingset и feature_array_testingset) непосредственно в конвейер следующим образом:
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.pipeline import Pipeline
from sklearn import svm
pipeline = Pipeline([('classifier',svm.SVC())])
pipeline.fit(feature_array_trainingset,train['Category'])
predictions = pipeline.predict(feature_array_testingset)
print (classification_report(predictions,test['Category']))
Возвращает результат классификации, но я я не совсем уверен, правильно ли я делаю процесс или нет.