Лучший способ кодировать категориальные данные (URL) в большой набор данных в машинном обучении? - PullRequest
0 голосов
/ 05 июля 2019

У меня есть большой набор данных, в котором одной из функций является категориальная (номинальная) именованная URL, которая содержит разные URL.Например, www.google.com, www.facebook.com, www.youtube.com, www.yahoo.com, www.amazon.com и т. Д. В миллионах строк содержится более 500 различных URL-адресов.

Каков наилучший способ кодирования этой категориальной функции, чтобы я мог передать закодированную функцию в модель логистической регрессии?

Я пробовал использовать кодирование меток из sklearn, но это не сработало, а просто пометилоURL с 1, 2, 3, ... не образуют никакой связи между ними.

Я пытался использовать одну горячую кодировку, но это создаст 500+ новых функций для моей модели и излишне увеличит сложностьмодели.

Код и данные являются конфиденциальными, я не могу предоставить.

Кодирование меток не сработало, а кодирование в одно касание сделает модель слишком сложной.

1 Ответ

0 голосов
/ 08 июля 2019

Я бы сначала спросил, нужна ли эта переменная полностью?Это что-то, что можно отбросить?

Если это не удастся, я бы сделал график частоты появления веб-сайтов.Веб-сайты, которые вы упоминаете, могут отображаться значительно чаще, чем некоторые другие неясные веб-сайты.Я бы использовал гистограмму, чтобы выбрать, может быть, топ-10 или 12 и т. Д.

...