Вариации в написании имени - PullRequest
       34

Вариации в написании имени

5 голосов
/ 28 сентября 2010

В рамках системы управления контактами у меня есть большая база данных имен. Люди часто редактируют это, и в результате мы сталкиваемся с проблемами одного и того же человека, существующего в разных формах (Джон Смит и Джонатан Смит). Я изучил сходство слов, но легко представить варианты имен, которые совсем не похожи (Ричард против Дика). Мне было интересно, есть ли список общих английских вариаций имени, которые я мог бы использовать для обнаружения и исправления таких ошибок.

Ответы [ 2 ]

3 голосов
/ 24 июля 2015

Эта тема указывает на список карт псевдонимов / имен из переписи:

http://deron.meranda.us/data/nicknames.txt

3 голосов
/ 12 октября 2010

Я бы просканировал все страницы Википедии (имеется доступный дамп данных Википедии) по именам людей, например, http://en.wikipedia.org/wiki/Teresa (из http://en.wikipedia.org/wiki/Category:English_given_names),) и создал бы индекс, который вы можете использовать, чтобы предлагать людейправильные формы (вы будете ранжировать их по количеству вариантов имен в вашей базе данных). К сожалению, я не знаю. такой базы данных.

...