Question

Как применить кластеризацию строк, которые имеют одинаковое имя (например, McDonald и Mc DOnald's) в наборе данных, и если строки одинаковы (например, sam и другие также sam), то как снова выполнить кластеризацию, например, на основе значения или цены- Рассмотрим таблицу данных, имеющую 10 элементов

name           price
ram               200
shyam             150
ram12              59
gita               45
ram 2                45 
g11ita                23
john2                32
john                 7
jonh21               8
jonh                 38
ram22                3

Тогда группировка должна быть

ram                    200

ram12                  59
ram  2                 45

ram22                   3

john2                    32
jonh                     37

john                    7
john21                   8

gita                 45
g11ita               23

Я использовал кластеризацию строк с использованием нечеткого расстояния и расстояния Левенхейтин, но он способен только кластеризовать строку и не делаетвозможность кластеризовать цену Как кластеризовать первую строку и, если такая же, то кластерную цену

Anony-Mousse · Answer 1 · 15 июня 2019

Вам нужно будет тщательно сбалансировать пороговые значения в текстовом сходстве и числовом сходстве.Простого решения не будет, и если у вас нет действительно больших данных, ручной подход может быть лучшим.

Текстовое сходство коротких строк крайне ненадежно.

Например: "собака"и" туман "отличаются только на одну букву, но это очень маловероятные опечатки.У них есть расстояние 1 Левенштейна, наименьшее ненулевое значение!Из-за этого, если вы полагаетесь на Левенштейна, у вас будет много ложных срабатываний - хорошо, если вы проверите их вручную, но не для автоматической обработки.

Так что, как минимум, вам нужно использовать что-то, что знаето (а) существующих словах, которые вряд ли написаны с ошибками, (б) общепринятых орфографических ошибок и (в) фонетическом сходстве для оценки вероятности того, что слово написано с ошибкой, (г) клавиатурном сходстве, вероятности того, что слово опечатано ...

кластеризация внутри кластеризации, которая является вложенной кластеризацией таблицы данных, которая является мультиклассовой кластеризацией

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

кластеризация внутри кластеризации, которая является вложенной кластеризацией таблицы данных, которая является мультиклассовой кластеризацией

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы