Что я должен делать после выполнения tf-idf и chi-squared в текстовом майнинге? - PullRequest
0 голосов
/ 19 марта 2019

В интеллектуальном анализе данных иногда обнаруживается, что один документ может быть заполнен более чем одним и тем же термином, например, повторяющееся слово повторяется.

Сначала я просто хотел проверить использование выбора и классификации хи-квадрат с помощью SVM.

Но когда я получаю значение хи-квадрат для каждого слова, меня смущает, нужно ли умножать этот вес хи-квадрат на матрицу td, чтобы повторяющееся слово могло иметь большой вес.

Или я должен сначала сделать tf-idf, а затем умножать его на вес ци в каждом слове?

Как бы я ни фокусировался, правда ли, что полученный нами числовой квадрат, алгоритм после этого умножает его на частоту матричного члена, которую мы имеем? Это правильный алгоритм?

Это для моей дипломной работы хе-хе: ") Спасибо, что поделились

...