Как нормализовать названия компаний - PullRequest
3 голосов
/ 02 ноября 2011

У нас есть пользовательские имена работодателей, которые бывают разных вариаций.Например, люди ввели или импортировали:

Google
Google, Inc.
Google Inc.
Google inc

Для поиска в базе данных это выглядит какразные компании все вместе.Мы изменили некоторые вещи, чтобы сопоставить каждого работодателя с «нормализованным» именем, но, имея в общей сложности 70000, это трудно сделать вручную.

Есть ли у кого-нибудь предложения о том, как нормализовать существующие записи,а также как сохранить, мы делаем это для всех входящих имен?

1 Ответ

3 голосов
/ 02 ноября 2011

Есть две вещи, которые вы можете сделать, чтобы помочь:

  • Когда пользователи добавляют название компании, дайте им поле автозаполнения, чтобы они получали предложения, если оно уже существует.В качестве альтернативы предложите существующий, такой как stackoverflow, когда вы добавляете вопрос.

  • Используйте инструмент поиска при запросе базы данных, чтобы вы могли суммировать все варианты.Вы можете найти поисковые камни здесь https://www.ruby -toolbox.com / Categories / rails_search

Я не думаю, что "нормализовать" их после факта будет легкони точно.

...