У меня есть полуструктурированный набор данных, каждая строка принадлежит одному пользователю:
id, skills
0,"java, python, sql"
1,"java, python, spark, html"
2, "business management, communication"
Почему полуструктурирован, потому что следующие навыки можно выбрать только из списка 580 уникальных значений.
Моя цель - объединить пользователей в группы или найти похожих пользователей на основе похожих навыков. Я попытался использовать модель Word2Vec, которая дает мне очень хорошие результаты для определения похожих наборов навыков - например.
model.most_similar(["Data Science"])
дает мне -
[('Data Mining', 0.9249375462532043),
('Data Visualization', 0.9111810922622681),
('Big Data', 0.8253220319747925),...
Это дает мне очень хорошую модель для определения индивидуальных навыков, а не группы навыков. как использовать вектор, предоставленный из модели Word2Vec, для успешной кластеризации групп похожих пользователей?