Как я могу получить частоту (TF) каждого термина в словаре, созданном sklearn.feature_extraction.text.CountVectorizer
, и поместить их в список или в диктант?
Кажется, что все значения, соответствующие ключам в словаре, являются целыми числами, меньшими, чем max_features, которые я устанавливаю вручную при инициализации CountVectorizer, а не TF - это должно быть число с плавающей запятой. Кто-нибудь может мне помочь?
CV=CountVectorizer(ngram_range(ngram_min_file_opcode,ngram_max_file_opcode),
decode_error="ignore", max_features=max_features_file_re,
token_pattern=r'\b\w+\b', min_df=1, max_df=1.0)
x = CV.fit_transform(x).toarray()