Прежде всего, извините за мой английский. Я пытаюсь сделать линейную регрессию на векторе слов и другую переменную
Данные как:
- 44 102 3 некоторый текст
- 70 55 40 некоторый текст
- 472 210 652, некоторый текст
...
Где первый столбец Y, другие x.
Я конвертирую текст в матрицу csr с помощью TF-IDFVectorizer. Тогда подгоните модель к нему.
Но я не знаю, как подобрать модель к матрице csr и списку чисел.
dataset = read_csv('test2.tsv',sep ='\t',error_bad_lines=False)
data = DataFrame(dataset, columns=['y','x1','x2','text'])
Y = data['y']
vectorizer = TfidfVectorizer(tokenizer=tokenizer,stop_words = stops)
X= vectorizer.fit_transform(data['text'])
x_train, x_test, y_train, y_test = train_test_split(X[:,], Y, test_size=0.3)
model = LinearRegression()
model.fit(x_train,y_train)
Мне нужна модель линейной регрессии, которая может анализировать текст и некоторые другие переменные.