Как можно в одно касание кодировать данные, имеющие несколько одинаковых значений для разных свойств? - PullRequest
1 голос
/ 09 мая 2019

У меня есть данные, содержащие кандидатов, которые ищут работу.Исходные данные, которые я получил, были полным беспорядком, но мне удалось их улучшить.Теперь я столкнулся с проблемой, которую не могу решить.

Одна запись-кандидат выглядит так:

https://i.imgur.com/LAPAIbX.png

Поскольку алгоритмы ML не могут работать с категориальными данными,Я хочу закодировать это.Моя цель состоит в том, чтобы запись кандидата была похожа на это:

https://i.imgur.com/zzsiDzy.png

Что мне нужно изменить, так это добавить новый столбец для каждого возможного значения, которое существует в Knowledge1, Knowledge2, Knowledge3, Knowledge4, Tag1 и Tag2 исходных данных, но без повторов.Мне удалось закодировать его, чтобы получить гораздо больше атрибутов, чем мне нужно, что приводит к неточной модели.Способ, который я попробовал, дает мне вновь созданные атрибуты Jscript_Knowledge1, Jscript_Knowledge2, Jscript_Knowledge3 и так далее для каждой возможной опции.

Если объяснение недостаточно четкое, пожалуйста, дайте мне знать, чтобы я мог объяснить его дальше.

Спасибо, и любая помощь высоко ценится.

Приветствия!

1 Ответ

1 голос
/ 10 мая 2019

У меня есть понимание вашей проблемы, основанное на вашем объяснении. Я постараюсь уточнить, как бы я подошел к этой проблеме. Если это не решит вашу проблему, мне может понадобиться больше объяснений, чтобы понять вашу проблему. Давайте начнем.

  • Для всех данных кандидата, которые у вас будут, соберите мастер список навыков / знаний
  • Этот список становится вашими столбцами

  • Для каждого кандидата, если у него есть этот навык, столбец становится 1 для его записи, иначе он остается 0

  • В этом и заключается суть одного горячего кодирования, поскольку один и тот же навык разбросан по нескольким столбцам, и вы боретесь с его автоматическим кодированием.

Альтернативный подход может быть:

  • Для каждого кандидата соберите все навыки знания в виде списка и назначьте их в 1 столбец для знаний, а теги - в качестве другого списка и назначьте в другой столбец вместо текущих 4 (знание) + 2 (теги).
  • Сортировать список знаний (и тегов) по алфавиту в этом столбце.
  • Авто Одно горячее кодирование после этого может привести к меньшим столбцам, чем раньше

Надеюсь, это поможет!

...