В интеллектуальном анализе данных иногда обнаруживается, что один документ может быть заполнен более чем одним и тем же термином, например, повторяющееся слово повторяется.
Сначала я просто хотел проверить использование выбора и классификации хи-квадрат с помощью SVM.
Но когда я получаю значение хи-квадрат для каждого слова, меня смущает, нужно ли умножать этот вес хи-квадрат на матрицу td, чтобы повторяющееся слово могло иметь большой вес.
Или я должен сначала сделать tf-idf, а затем умножать его на вес ци в каждом слове?
Как бы я ни фокусировался, правда ли, что полученный нами числовой квадрат, алгоритм после этого умножает его на частоту матричного члена, которую мы имеем? Это правильный алгоритм?
Это для моей дипломной работы хе-хе: ") Спасибо, что поделились