Я обучил модель классификатора, используя логистическую регрессию для набора строк, который классифицирует строки на 0 или 1. У меня сейчас есть такая, где я могу тестировать только одну строку за раз. Как можно, чтобы моя модель проходила более одного предложения за раз, может быть, из файла .csv, чтобы мне не приходилось вводить каждое предложение отдельно?
def train_model (классификатор, feature_vector_train, метка, feature_vector_valid, valid_y, is_neural_net = False): classifier.fit (feature_vector_train, label)
# predict the labels on validation dataset
predictions = classifier.predict(feature_vector_valid)
if is_neural_net:
predictions = predictions.argmax(axis=-1)
return classifier , metrics.accuracy_score(predictions, valid_y)
затем
model, accuracy = train_model(linear_model.LogisticRegression(), xtrain_count, train_y, xtest_count,test_y)
В настоящее время, как я тестирую свою модель
sent = ['here I copy a string']
преобразование текстапосчитать мешок векторов слов
count_vect = CountVectorizer(analyzer='word', token_pattern=r'\w{1,}',ngram_range=(1, 2))
x_feature_vector = count_vect.transform(sent)
pred = model.predict(x_feature_vector)
и я получу предложение и его предсказание
Я хотел, чтобы модель классифицировала все мои новые предложения сразу и дала классификацию каждому предложению.