Модель линейной регрессии, предсказывающая каждое слово отдельно, а не целое предложение - PullRequest
0 голосов
/ 16 февраля 2020

Я пытаюсь предсказать, используя список отдельных слов. Я создал модель, которая хорошо работает в тестировании, и я пытаюсь загрузить модель и использовать ее в другом месте.

Я сохранил и загрузил модель и векторизатор счета, которые я использовал для ее создания. Я применил мой шаг очистки текста к тексту.

Проблема в том, что его предсказание состоит только из отдельных слов, а не из всего предложения. В приведенном ниже примере это прогнозируется с собакой, коричневым, черным, а не со всеми.

import joblib 
import pandas as pd
from utils.utils import process_text

# load the dataset
loaded_model = joblib.load("models/LR/best_model.sav")
loaded_cvec = joblib.load("models/LR/best_countvectorizer.sav")

testdata = 'dog brown black'
testdata = process_text(testdata)

x_val_vec = loaded_cvec.transform(testdata)


result = loaded_model.predict_proba(x_val_vec)

результат возвращает массив из 3 строк с предсказанной категорией для каждого слова. То, что я ищу, - это одно предсказанное значение для всех слов. Должен ли я сделать это вручную, например, вернуть самый высокий проба?

...