найти сходство между параметрами устройства - PullRequest
0 голосов
/ 27 декабря 2018

У меня есть промышленный набор данных, который содержит столбцы: Имя и Метка.Имя и метка содержат такие данные, как:

     Name                                            Label

final_assembly_number,                               product name,
pressure_sensor_serial_number,                       order number           
measurement_switch                                   sensor serial number.                          

У меня есть список из примерно 800 параметров и 5-6 похожих файлов, все имена уникальны в наборе данных, в то время как более половины меток уникальны,но немногие повторяют 50 раз, 20 раз, 6 и 2 раза, а все остальные уникальны.

Все, что мне нужно сделать, - это найти сходство между Именем и Меткой и тем, как много Имен связано содна и та же метка, например, повторяется несколькими метками: 1 метка связана с 20 именами, а многие похожи на 1 метку, ассоциированную с 1 именем.

Все данные носят чисто промышленный характер и не содержат каких-либоосмысленные предложения.

Прежде чем я попытался реализовать его с помощью word2vec, но кажется, что это невозможно с помощью алгоритма word2vec, мне нужны некоторые предложения для этого, возможно ли с помощью w2v или любого другого алгоритма ML вы предложите мнеэто дело?

My dataset

...