кластеризация внутри кластеризации, которая является вложенной кластеризацией таблицы данных, которая является мультиклассовой кластеризацией - PullRequest
1 голос
/ 15 июня 2019

Как применить кластеризацию строк, которые имеют одинаковое имя (например, McDonald и Mc DOnald's) в наборе данных, и если строки одинаковы (например, sam и другие также sam), то как снова выполнить кластеризацию, например, на основе значения или цены- Рассмотрим таблицу данных, имеющую 10 элементов

name           price
ram               200
shyam             150
ram12              59
gita               45
ram 2                45 
g11ita                23
john2                32
john                 7
jonh21               8
jonh                 38
ram22                3

Тогда группировка должна быть

ram                    200

ram12                  59
ram  2                 45

ram22                   3

john2                    32
jonh                     37

john                    7
john21                   8

gita                 45
g11ita               23      

Я использовал кластеризацию строк с использованием нечеткого расстояния и расстояния Левенхейтин, но он способен только кластеризовать строку и не делаетвозможность кластеризовать цену Как кластеризовать первую строку и, если такая же, то кластерную цену

1 Ответ

0 голосов
/ 15 июня 2019

Вам нужно будет тщательно сбалансировать пороговые значения в текстовом сходстве и числовом сходстве.Простого решения не будет, и если у вас нет действительно больших данных, ручной подход может быть лучшим.

Текстовое сходство коротких строк крайне ненадежно.

Например: "собака"и" туман "отличаются только на одну букву, но это очень маловероятные опечатки.У них есть расстояние 1 Левенштейна, наименьшее ненулевое значение!Из-за этого, если вы полагаетесь на Левенштейна, у вас будет много ложных срабатываний - хорошо, если вы проверите их вручную, но не для автоматической обработки.

Так что, как минимум, вам нужно использовать что-то, что знаето (а) существующих словах, которые вряд ли написаны с ошибками, (б) общепринятых орфографических ошибок и (в) фонетическом сходстве для оценки вероятности того, что слово написано с ошибкой, (г) клавиатурном сходстве, вероятности того, что слово опечатано ...

...