Как задать имя для нетекстовой функции, добавляемой в преобразованные данные CountVectorizer? - PullRequest
0 голосов
/ 04 июня 2018

У меня есть код для добавления новой нетекстовой функции (длина документа) к векторизованному набору данных:

from sklearn.feature_extraction.text import CountVectorizer
from scipy.sparse import csr_matrix, hstack
def add_feature(X, feature_to_add):
    return hstack([X, csr_matrix(feature_to_add).T], 'csr')
vect = CountVectorizer().fit(X_train)
X_train_vectorized = vect.transform(X_train)
X_train1 = add_feature(X_train_vectorized, X_train.str.len())

Я хотел бы назвать эту новую функцию как length_of_doc.Как это можно сделать?Спасибо.

...