Tf-idf для SO сообщений (где тег может встречаться только один раз) - PullRequest
0 голосов
/ 06 марта 2019

Используя дамп данных stackoverflow, я анализирую SO сообщения, которые помечены с помощью pytorch или keras. В частности, я подсчитываю, сколько раз встречается каждый co-тег (т. Е. Теги, которые не являются pytorch в сообщении с тегом pytorch).

Я бы хотел отфильтровать теги, которые настолько распространены, что потеряли реальное значение для моего анализа (например, тег python).

Я смотрю в Tf-IDF

TF представляет частоту слова для каждого документа. Однако каждый сопутствующий тег может встречаться только один раз для данного поста (т. Е. Вы не можете пометить свой пост «html» пять раз). Таким образом, значение tf для большинства слов будет 1/5, а для других - меньше (потому что, например, запись имеет только 4 тега). Можно ли еще сделать Tf-Idf с учетом этого контекста?

1 Ответ

0 голосов
/ 06 марта 2019

Если вы хотите отфильтровать распространенные теги, вы можете использовать conditional probability. Например: python так часто встречается на сообщениях с тегами pytorch, поэтому P (python | pytorch) будет высоким, лайки: 0,9. Вы можете найти порог для фильтрации этих тегов. Association rule learning более подходит и сложнее, чем выше.

...