У меня есть 20 000 адресов компаний в различных документах, которые все по-разному отформатированы.Например:
Компания A 12345, улица США
CompanyA, Inc box2, 12345 улица WA, США
Компания B, компания ООО 123 Happy Street UK
Компания B, Ltd 123, Happy Street, Лондон, S1 1AA
Я хотел бы иметь возможность объединить записи для каждой компании (то есть разделить вышеперечисленное на две категории, по одной на компанию).
Я понятия не имею, как это сделать.Я предполагаю, что любая кластеризация будет вероятностной по своему характеру и, вероятно, будет хорошо работать для более простых совпадений, но затем потребуется ручная проверка для менее вероятных / более неопределенных совпадений.
Кто-нибудь может назвать какие-либо методы, подходящие для этого типа задач?1025 *
большое спасибо!