У меня есть данные, содержащие кандидатов, которые ищут работу.Исходные данные, которые я получил, были полным беспорядком, но мне удалось их улучшить.Теперь я столкнулся с проблемой, которую не могу решить.
Одна запись-кандидат выглядит так:
https://i.imgur.com/LAPAIbX.png
Поскольку алгоритмы ML не могут работать с категориальными данными,Я хочу закодировать это.Моя цель состоит в том, чтобы запись кандидата была похожа на это:
https://i.imgur.com/zzsiDzy.png
Что мне нужно изменить, так это добавить новый столбец для каждого возможного значения, которое существует в Knowledge1, Knowledge2, Knowledge3, Knowledge4, Tag1 и Tag2 исходных данных, но без повторов.Мне удалось закодировать его, чтобы получить гораздо больше атрибутов, чем мне нужно, что приводит к неточной модели.Способ, который я попробовал, дает мне вновь созданные атрибуты Jscript_Knowledge1, Jscript_Knowledge2, Jscript_Knowledge3 и так далее для каждой возможной опции.
Если объяснение недостаточно четкое, пожалуйста, дайте мне знать, чтобы я мог объяснить его дальше.
Спасибо, и любая помощь высоко ценится.
Приветствия!