Предположим, у меня есть файл с тысячами навыков, начиная с A-Z. Теперь я хотел бы создать модель, которая может группировать сходные навыки (например, нейронная сеть и SVM могут группироваться вместе). Я знаю, что могу использовать NLP для этой проблемы, но я не уверен насчет алгоритма, который я могу использовать для достижения наилучшего результата.
Я новичок в НЛП, поэтому любая помощь очень ценится.
Сначала я думал использовать семантическое сходство. Поэтому я могу использовать предварительно обученные вложения слов, чтобы отобразить слова в новое векторное пространство, где я могу рассчитать расстояние между встраиваниями слов, например, с word2vec или другими реализациями. Но я не уверен в этом. Можете ли вы дать мне ссылку или показать, как мне это сделать, чтобы я мог получить лучший результат? Посмотрите на данные [1]: https://i.stack.imgur.com/jGRI0.png
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36943 entries, 0 to 36942
Data columns (total 1 columns):
Skills 36942 non-null object
dtypes: object(1)
memory usage: 288.7+ KB
None
Skills
0 .NET
1 .NET CLR
2 .NET Compact Framework
3 .NET Framework
4 .NET Remoting