Как сделать кластер с похожим типом навыков вместе? - PullRequest
0 голосов
/ 10 мая 2019

Предположим, у меня есть файл с тысячами навыков, начиная с A-Z. Теперь я хотел бы создать модель, которая может группировать сходные навыки (например, нейронная сеть и SVM могут группироваться вместе). Я знаю, что могу использовать NLP для этой проблемы, но я не уверен насчет алгоритма, который я могу использовать для достижения наилучшего результата.

Я новичок в НЛП, поэтому любая помощь очень ценится.

Сначала я думал использовать семантическое сходство. Поэтому я могу использовать предварительно обученные вложения слов, чтобы отобразить слова в новое векторное пространство, где я могу рассчитать расстояние между встраиваниями слов, например, с word2vec или другими реализациями. Но я не уверен в этом. Можете ли вы дать мне ссылку или показать, как мне это сделать, чтобы я мог получить лучший результат? Посмотрите на данные [1]: https://i.stack.imgur.com/jGRI0.png

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36943 entries, 0 to 36942
Data columns (total 1 columns):
Skills    36942 non-null object
dtypes: object(1)
memory usage: 288.7+ KB
None
                   Skills
0                    .NET
1                .NET CLR
2  .NET Compact Framework
3          .NET Framework
4           .NET Remoting

1 Ответ

0 голосов
/ 10 мая 2019

В вашей ситуации одним из лучших вариантов может стать нейронная сеть Кохонена. Хотя вам необходимо нормализовать данные в соответствии с контролируемым обучением, но вы можете получить все, что связано с вашими требованиями, по ссылке ниже: http://www.kovera.org/neural-network-for-clustering-in-python/

...