Как рассчитать прирост информации? - PullRequest
0 голосов
/ 14 мая 2019

Я хочу вычислить каждое слово моего набора данных information gain, но я только достигну этого решения в своем исследовании, и я подал заявку.Mutual information gain.

dataset = pd.read_csv("labelled_text.txt", delimiter="\t")

vectorizer = TfidfVectorizer(stop_words = 'english')
X = vectorizer.fit_transform(dataset.Sentence)
Y = dataset['Class']

res_mi = dict(zip(vectorizer.get_feature_names(), mutual_info_classif(X, Y, discrete_features=True)))

Это те же вычисления в sklearn?

...