Запись Связи без присмотра - PullRequest
0 голосов
/ 25 мая 2019

Я строю Matching Alogoritm, используя ML.Проект должен сопоставлять внутренние данные клиента с внешними данными клиента. Особенностями являются имена, адрес, город, штат и почтовый индекс.

Мы создаем пары между наборами данных и вычисляем косинуссходство, а затем передать значения косинуса для всех пар объектов в модель гауссовой смеси. Мы начали с 2 кластеров с ожиданием одного кластера совпадений и одного кластера без совпадений. Но ML не строит один кластер совпадений, и совпадения находятся в обоих кластерах.

Прежде чем перейти к ML, я использую Standard Scaler и Minmax Scaler, но все еще не получаю четкого соответствия и соответствия кластера. Если мы увеличиваем кластер, происходит то же самое.

Соответствие может быть высокимкосинусное сходство имени, адреса, штата, города и почтового индекса или имени, адреса, почтового индекса или любых других комбинаций. Мы имеем дело с огромным объемом, поэтому мы используем Spark ML.

Как мы можем достичь оптимальной кластеризации?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...