Я работаю над проектом связывания записей, и мне нужно провести некоторую исследовательскую работу с различными компараторами строк. Я смотрю на:
Яро-Винклер, расстояние Левенштейна, самая длинная общая подстрока и точное совпадение.
Мне интересно, была ли проделана какая-либо работа, чтобы определить, какой продукт лучше использовать и когда? То есть, Джаро-Винклер кажется, что это хорошо для имен, но может быть лучше сделать точное совпадение по номерам социального страхования. Что бы вы использовали для адресов? Есть ли у Jaro-Winkler преимущества перед другими?
Есть ли какие-нибудь официальные документы, на которые кто-то мог бы указать мне?
Спасибо.