У меня есть несколько наборов данных, содержащих данные о компаниях: - entity_structure (столбцы: entity_id, parent_entity_id, ultimate_parent_id) - entity_addresses (столбцы: address_id, entity_id, location_city, state, postal_code, zip, street, ...) - vendor (columns: : vendor_id, parent_vendor_id, top_vendor_id, cnt_children, orgtype_id, geo_id, name, email, ...) - geo (столбцы: geo_id, zipcode, is_primary, широта, долгота, высота, состояние, ...) - entity_coverage (entity_id, name , собственное_имя, sic_code, отраслевой_код, сектор_код, iso, ...)
Мне нужно автоматически сопоставлять объекты между наборами данных, например, в одном наборе данных может быть компания с именем «Google», а компания назвала "Google 123" в другом. Мне нужно с достаточной степенью уверенности определить, что это одни и те же сущности. В большинстве случаев данные не имеют уникального ключа. В большинстве случаев данные не имеют общего уникального ключа.
Будет ли связывание именованных сущностей лучшим подходом? Есть ли Python примеров того, как подойти к этой проблеме?