Не то, что я знаю, но учтите, что scikit-learn может выполнять подсчет частоты n -грамм.Предполагая уровень слова n -грамм:
from sklearn.feature_extraction.text import CountVectorizer, WordNGramAnalyzer
v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=2))
X = v.fit_transform(files)
, где files
- это список строк или файловых объектов.После этого X
является матрицей scipy.sparse необработанных частот.