Я строю Matching Alogoritm, используя ML.Проект должен сопоставлять внутренние данные клиента с внешними данными клиента. Особенностями являются имена, адрес, город, штат и почтовый индекс.
Мы создаем пары между наборами данных и вычисляем косинуссходство, а затем передать значения косинуса для всех пар объектов в модель гауссовой смеси. Мы начали с 2 кластеров с ожиданием одного кластера совпадений и одного кластера без совпадений. Но ML не строит один кластер совпадений, и совпадения находятся в обоих кластерах.
Прежде чем перейти к ML, я использую Standard Scaler и Minmax Scaler, но все еще не получаю четкого соответствия и соответствия кластера. Если мы увеличиваем кластер, происходит то же самое.
Соответствие может быть высокимкосинусное сходство имени, адреса, штата, города и почтового индекса или имени, адреса, почтового индекса или любых других комбинаций. Мы имеем дело с огромным объемом, поэтому мы используем Spark ML.
Как мы можем достичь оптимальной кластеризации?