Весь код в Python. У меня есть список Python с именем " corpus ", который содержит обзоры в общей сложности 2000 (+ ve и -ve обзоры оба). Основная / важная часть mycode:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=2000, max_df=0.6, min_df=3, stop_words=stopwords.words("english"))
X = vectorizer.fit_transform(corpus)
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
X = transformer.fit_transform(X)
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)
from sklearn.linear_model import LogisticRegression
logistic_reg = LogisticRegression()
logistic_reg.fit(X_train, y_train)
Теперь я хочу предсказать предложение как + ve или -ve ('1' или '0'). Предложение
sample = ["you are a nice person and have a good life"]
Как мне поступить с прогнозированием для вышеперечисленного (я знаю, какова роль CountVectorizer и TdfidfTransformer, но это как-то путает меня с TdfidfVectorizer)