Я хочу вычислить каждое слово моего набора данных information gain
, но я только достигну этого решения в своем исследовании, и я подал заявку.Mutual information gain
.
dataset = pd.read_csv("labelled_text.txt", delimiter="\t")
vectorizer = TfidfVectorizer(stop_words = 'english')
X = vectorizer.fit_transform(dataset.Sentence)
Y = dataset['Class']
res_mi = dict(zip(vectorizer.get_feature_names(), mutual_info_classif(X, Y, discrete_features=True)))
Это те же вычисления в sklearn?