У меня есть большой набор данных, в котором одной из функций является категориальная (номинальная) именованная URL, которая содержит разные URL.Например, www.google.com, www.facebook.com, www.youtube.com, www.yahoo.com, www.amazon.com и т. Д. В миллионах строк содержится более 500 различных URL-адресов.
Каков наилучший способ кодирования этой категориальной функции, чтобы я мог передать закодированную функцию в модель логистической регрессии?
Я пробовал использовать кодирование меток из sklearn, но это не сработало, а просто пометилоURL с 1, 2, 3, ... не образуют никакой связи между ними.
Я пытался использовать одну горячую кодировку, но это создаст 500+ новых функций для моей модели и излишне увеличит сложностьмодели.
Код и данные являются конфиденциальными, я не могу предоставить.
Кодирование меток не сработало, а кодирование в одно касание сделает модель слишком сложной.