Консолидация / кластеризация Термины и фразы - PullRequest
0 голосов
/ 22 декабря 2009

Наше приложение позволяет пользователю вводить названия компаний, с которыми работает их организация. В настоящее время проблема заключается в том, что способ ввода имени компании одним пользователем варьируется от пользователя к пользователю. Нам нужно объединить эти данные. Есть ли проверенные подходы для решения этой проблемы?

1 Ответ

1 голос
/ 22 декабря 2009

Проблема качества данных обычно называется Очистка данных . Есть много методов и инструментов в этой области.

Лучшее для вас будет зависеть от масштабов вашей проблемы, а также от технологий, которые вы используете. Но если я хорошо понимаю, что сохраненные данные в порядке, проблема в том, что пользователь вводит данные для поиска с неправильным написанием? В этом случае может помочь нечеткий поиск.

...