Используя дамп данных stackoverflow, я анализирую SO сообщения, которые помечены с помощью pytorch или keras. В частности, я подсчитываю, сколько раз встречается каждый co-тег (т. Е. Теги, которые не являются pytorch в сообщении с тегом pytorch).
Я бы хотел отфильтровать теги, которые настолько распространены, что потеряли реальное значение для моего анализа (например, тег python).
Я смотрю в Tf-IDF
TF представляет частоту слова для каждого документа. Однако каждый сопутствующий тег может встречаться только один раз для данного поста (т. Е. Вы не можете пометить свой пост «html» пять раз). Таким образом, значение tf для большинства слов будет 1/5, а для других - меньше (потому что, например, запись имеет только 4 тега). Можно ли еще сделать Tf-Idf с учетом этого контекста?