Сопоставление сущностей между двумя разрозненными наборами данных компании - PullRequest
0 голосов
/ 29 мая 2020

У меня есть несколько наборов данных, содержащих данные о компаниях: - entity_structure (столбцы: entity_id, parent_entity_id, ultimate_parent_id) - entity_addresses (столбцы: address_id, entity_id, location_city, state, postal_code, zip, street, ...) - vendor (columns: : vendor_id, parent_vendor_id, top_vendor_id, cnt_children, orgtype_id, geo_id, name, email, ...) - geo (столбцы: geo_id, zipcode, is_primary, широта, долгота, высота, состояние, ...) - entity_coverage (entity_id, name , собственное_имя, sic_code, отраслевой_код, сектор_код, iso, ...)

Мне нужно автоматически сопоставлять объекты между наборами данных, например, в одном наборе данных может быть компания с именем «Google», а компания назвала "Google 123" в другом. Мне нужно с достаточной степенью уверенности определить, что это одни и те же сущности. В большинстве случаев данные не имеют уникального ключа. В большинстве случаев данные не имеют общего уникального ключа.

Будет ли связывание именованных сущностей лучшим подходом? Есть ли Python примеров того, как подойти к этой проблеме?

1 Ответ

1 голос
/ 29 мая 2020

Согласно вашему примеру, Расстояние Левенштейна может помочь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...