Мне нужно вычислить матрицу tfidf для нескольких предложений.предложение включает в себя как цифры, так и слова.Я использую приведенный ниже код, чтобы сделать это
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
data1=['1/8 wire','4 tube','1-1/4 brush']
dataset=pd.DataFrame(data1, columns=['des'])
vectorizer1 = TfidfVectorizer(lowercase=False)
tf_idf_matrix = pd.DataFrame(vectorizer1.fit_transform(dataset['des']).toarray(),columns=vectorizer1.get_feature_names())
Функция Tfidf рассматривает только слова в качестве своего словаря, т.е.
Out[3]: ['brush', 'tube', 'wire']
, но мне нужны числа, чтобы быть частью токенов
Ожидается
Out[3]: ['brush', 'tube', 'wire','1/8','4','1-1/4']
После прочтения документации TfidfVectorizer я узнал, что необходимо изменить параметры token_pattern и tokenizer .Но я не понимаю, как изменить его, чтобы учитывать цифры и знаки препинания.
Может кто-нибудь, пожалуйста, скажите мне, как изменить параметры.