Как добавить два набора разностных данных (массив и матрица csr) в LinearRegression sklearn - PullRequest
0 голосов
/ 15 июня 2019

Прежде всего, извините за мой английский. Я пытаюсь сделать линейную регрессию на векторе слов и другую переменную

Данные как:

  1. 44 102 3 некоторый текст
  2. 70 55 40 некоторый текст
  3. 472 210 652, некоторый текст

...

Где первый столбец Y, другие x. Я конвертирую текст в матрицу csr с помощью TF-IDFVectorizer. Тогда подгоните модель к нему. Но я не знаю, как подобрать модель к матрице csr и списку чисел.

dataset = read_csv('test2.tsv',sep ='\t',error_bad_lines=False)
data = DataFrame(dataset, columns=['y','x1','x2','text'])
Y = data['y']
vectorizer = TfidfVectorizer(tokenizer=tokenizer,stop_words = stops)
X= vectorizer.fit_transform(data['text'])
x_train, x_test, y_train, y_test = train_test_split(X[:,], Y, test_size=0.3)
model = LinearRegression()
model.fit(x_train,y_train)

Мне нужна модель линейной регрессии, которая может анализировать текст и некоторые другие переменные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...