Объединение tf-idf с целевой / средней кодировкой для классификации нескольких классов - PullRequest
0 голосов
/ 02 декабря 2018

У меня есть набор данных для всего программного обеспечения, установленного большой группой пользователей.Я должен был бы классифицировать пользователей в одну из 4 категорий в зависимости от того, какое программное обеспечение они установили (каждый пользователь может установить до 30 единиц программного обеспечения).

«Программное обеспечение» - это функция, которая имеет большую мощность (более 1000), поэтому использование наивного однократного кодирования не представляется целесообразным.

Я понимаю, что вышеуказанная проблема очень похожа на классификацию текста,В этом случае каждый пользователь представлен списком строк, каждая из которых обозначает программу, которую он установил.Некоторые строки встречаются несколько раз, так как можно установить несколько версий одного и того же программного обеспечения.Так что это очень похоже на короткий текст с некоторыми словами, встречающимися чаще.

В текстовой классификации обычно преобразовывают необработанные числа строк / токенов в веса tf-idf.По сути, это неконтролируемый метод, поскольку он не учитывает корреляцию между признаками и целевой переменной.Последнее может быть захвачено с помощью целевой / средней кодировки.

Так есть ли прямой способ объединить tf-idf с целевой / средней кодировкой?

Мне также было бы интересно, как нормализовать / стандартизировать такую ​​комбинацию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...