У меня есть промышленный набор данных, который содержит столбцы: Имя и Метка.Имя и метка содержат такие данные, как:
Name Label
final_assembly_number, product name,
pressure_sensor_serial_number, order number
measurement_switch sensor serial number.
У меня есть список из примерно 800 параметров и 5-6 похожих файлов, все имена уникальны в наборе данных, в то время как более половины меток уникальны,но немногие повторяют 50 раз, 20 раз, 6 и 2 раза, а все остальные уникальны.
Все, что мне нужно сделать, - это найти сходство между Именем и Меткой и тем, как много Имен связано содна и та же метка, например, повторяется несколькими метками: 1 метка связана с 20 именами, а многие похожи на 1 метку, ассоциированную с 1 именем.
Все данные носят чисто промышленный характер и не содержат каких-либоосмысленные предложения.
Прежде чем я попытался реализовать его с помощью word2vec, но кажется, что это невозможно с помощью алгоритма word2vec, мне нужны некоторые предложения для этого, возможно ли с помощью w2v или любого другого алгоритма ML вы предложите мнеэто дело?