Как обучить модель по кластерному набору данных и использовать ее с немаркированным / некластеризованным набором данных - PullRequest
0 голосов
/ 30 апреля 2019

У меня есть набор данных, который помечен, где метка является результатом вычислений, проведенных по оставшейся части столбцов.Я ищу обученную модель, основанную на первоначально кластеризованном наборе данных, для повторного использования с некластеризованными данными.

Пример:

Существующие кластеризованные данные с заранее определенной логикой (см.индекс в конце)

a   b   c   d   e   f   g   h   i   k   k   l   m   cluster number
1.684348    -0.52414    6/25/2018 10:29:15 AM   -1.24432    -1.21429    -0.00079    -2.33773    -0.17967    -0.52374    0.141378    -0.43097    -0.49427    -0.66624    6
1.669928    -0.52414    6/25/2018 10:29:20 AM   -1.2442 -1.21429    -0.00079    -2.33773    -0.65248    -0.52374    0.141378    -0.43097    -0.49427    -0.10613    6
1.670026    -0.52414    6/25/2018 10:29:25 AM   -1.2442 -1.21429    -0.00079    -2.33773    -0.69763    -0.52374    0.141378    -0.43097    -0.49427    -0.01102    2
1.670123    -0.52414    6/25/2018 10:29:30 AM   -1.2442 -1.21429    -0.00079    -2.33773    -0.69715    -0.52374    0.141378    -0.43097    -0.49427    -0.01146    2
1.670123    -0.52414    6/25/2018 10:29:35 AM   -1.2442 -1.21429    -0.00079    -2.33773    -0.69786    -0.52374    0.141378    -0.43097    -0.49427    -0.01051    2
1.670123    -0.52414    6/25/2018 10:29:40 AM   -1.2442 -1.21429    -0.00079    -2.33773    -0.69789    -0.52374    0.141378    -0.43097    -0.49427    -0.00997    2

Имея обученную модель, я хочу иметь возможность импортировать набор данных, у которого нет последнего столбца, где машине придется реплицировать те же кластеры, что и обученная модель (У меня есть сотни наборов данных, каждый из которых содержит миллионы строк)

a   b   c   d   e   f   g   h   i   j   k   l   m
0.151737    0.496603    6/25/2018 9:22:25 PM    -1.009  -1.21429    -0.00079    -2.33773    -0.70592    -0.52718    -0.05961    0.141378    -0.43023    -0.1907
0.151737    0.496603    6/25/2018 9:22:30 PM    -1.009  -1.21429    -0.00079    -2.33773    -0.70827    -0.52718    -0.05777    0.141378    -0.42984    -0.1907
0.151737    0.496603    6/25/2018 9:22:35 PM    -1.009  -1.21429    -0.00079    -2.33773    -0.7017 -0.52718    -0.06729    0.141378    -0.43097    -0.1907
0.151737    0.496603    6/25/2018 9:22:40 PM    -1.009  -1.21429    -0.00079    -2.33773    -0.69523    -0.52718    -0.07462    0.141378    -0.43097    -0.19179
0.156023    0.496603    6/25/2018 9:22:45 PM    -1.00901    -1.21429    -0.00079    -2.33773    -0.26652    -0.52718    -0.45339    0.141378    -0.43097    -0.19702
0.185058    0.496603    6/25/2018 9:22:50 PM    -1.00924    -1.21429    -0.00079    -2.33773    0.003436    -0.52718    -0.96281    0.141378    -0.43097    -0.43715
0.181843    0.496603    6/25/2018 9:22:55 PM    -1.00923    -1.21429    -0.00079    -2.33773    -0.14295    -0.52718    -0.80746    0.141378    -0.43097    -0.43715
0.113446    0.496603    6/25/2018 9:23:00 PM    -1.00871    -1.21429    -0.00079    -2.33773    -0.17593    -0.52374    -0.70632    0.141378    -0.43097    -0.4922

Есть предложения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...