У меня есть список необработанных строк, которые выглядят следующим образом:
listtocheck = ['fadsfsfgblahsdfgsfg','adfaghelloggfg','gagfghellosdfhere','blahsgsdfgsdfhellohsdfhgshstring']
, и я хочу выполнить TfIdf с ними и список элементов, которые у меня есть в списке (не сам по себе).
mylist = ['blah','hello','here','string']
Этот список я векторизовал как таковой;
from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer(analyzer = 'char_wb', ngram_range=(2,3))
listvec = tf.fit_transform(mylist)
Это дает мне tfidf вещей в mylist
.Я хотел бы иметь возможность проверить, сколько раз нграммы из mylist
появляются в каждом элементе listtocheck
, а затем выполнять TfIdf на основе общего числа раз, когда нграм появляется во всех строках вlisttocheck