Во-первых, я хотел бы добавить, что вы должны быть очень осторожны при использовании любой формы алгоритма фонетического / нечеткого сопоставления, поскольку именно этот тип логики является нечетким или, проще говоря; потенциально неточно. Особенно актуально при использовании для сопоставления названий компаний.
Хороший подход заключается в поиске подтверждения на основе других данных, таких как информация об адресе, почтовые индексы, номера телефонов, географические координаты и т. Д. Это поможет подтвердить вероятность того, что ваши данные будут точно сопоставлены.
Существует целый ряд вопросов, связанных с сопоставлением данных B2B, слишком много, чтобы их можно было здесь рассмотреть. Я написал больше о Соответствии названию компании в своем блоге, но в итоге ключевые проблемы:
- Просмотр всей строки бесполезен как самая важная часть
названия компании не обязательно в начале компании
Название. то есть, «Проктор энд Гэмбл Компани» или «Федерал США»
Резерв ‘
- Аббревиатуры обычно встречаются в названиях компаний, то есть HP, GM, GE, P & G,
D & B и т.д ..
- Некоторые компании намеренно пишут свои названия неправильно как часть
их брендинг и дифференцировать себя от других компаний.
Сопоставление точных данных легко, но сопоставление неточных данных может занять гораздо больше времени, и я бы посоветовал вам подумать о том, как вы будете проверять неточные совпадения, чтобы обеспечить их приемлемое качество.
До того, как мы создали Match2Lists.com, мы тратили нездоровое количество времени на проверку нечетких совпадений. В Match2Lists мы включили мощный инструмент визуализации, позволяющий нам просматривать неточные совпадения, что оказалось реальным изменением игры с точки зрения проверки совпадения, уменьшив наши затраты и позволив нам гораздо быстрее доставлять результаты.
Удачи !!