Существует ли бесплатная (или недорогая) база данных имен и фамилий? - PullRequest
5 голосов
/ 12 декабря 2008

Я ищу справочную базу данных, которую можно использовать для проверки возможных опечаток имен в базе данных контактов. Это для пакетного процесса, поэтому производительность не является реальной проблемой. В идеале я хотел бы иметь обширную базу данных, но даже что-то вроде «топ-5000» имело бы большое значение.

Спасибо!

Ответы [ 6 ]

18 голосов
/ 12 декабря 2008

Я не знаю о базе данных, но заполняю ее самостоятельно из такого ресурса, как этот http://web.archive.org/web/20081218100813/http://www.census.gov/genealogy/names/dist.all.last должно работать нормально :) 1003 *

14 голосов
/ 12 декабря 2008

Я знаю базу данных имён http://www.lexique.org/public/Prenoms100.zip, которая охватывает Phil, Phile, Philip, Philipp, Phillip, Felipe, Philippe. (около 12000 имен)

Я думаю, что вы не найдете ничего полезного со вторыми именами, так как их гораздо больше, чем имен. Это известная проблема в компьютерной лингвистике.

13 голосов
/ 12 декабря 2008

Я не понимаю, как вы можете найти опечатки в именах. Я имею в виду, меня зовут Филипп (французский), но это может быть Филипп, Филипс, Фелипе, Фелипе или что-то еще. Вероятно, существует традиционное французское имя Сандрин, но тенденция состоит в том, чтобы написать этот Кендрин, тем более что закон недавно был смягчен во Франции. И так далее.
Хорошо, возможно, запах Джона похож на опечатку (обычная двухбуквенная инверсия), но вы не можете точно сказать.
Опечатки в фамилиях еще более невозможно обнаружить ... Если вы не сверяетесь с ограниченным, известным списком (например, сотрудниками компании).

2 голосов
/ 28 апреля 2013

Я нашел несколько баз данных, которые не используются для проверки орфографии, но вот одна, в которой перечислены общие имена: Имя Пола базы данных , и другая, в которой перечислены общие фамилии: Имя База данных этнических групп

Надеюсь, это поможет!

2 голосов
/ 12 декабря 2008

Я лично знаю людей, которые имеют уникальные имена (имена, которые их родители сознательно придумали как уникальные), и я также лично знаю людей, чьи имена написаны с ошибками, но на самом деле именно так их назвали их родители. Я бы даже не попытался сделать такую ​​вещь, как попытка исправить опечатки. Вместо этого мы импортируем имена (и нам требуется уникальный идентификатор, полученный от наших клиентов). Затем в следующий раз, когда мы импортируем, мы сопоставим уникальный идентификатор, и если имя было изменено (потому что мы связались с человеком, и он или она сказал нам, на что его изменить), то имя не будет обновлено. Но если имя не было изменено и оно отличается от файла (обычно из-за брака или развода), то имя обновляется. Вам понадобится какой-то флаг на записи данных, чтобы сообщить, что она была обновлена ​​вручную. Мы заполняем это через триггер.

Гораздо важнее при импорте данных об именах избегать создания дубликатов (отсюда наше требование уникального идентификатора из наших источников данных) или избегать некорректного сопоставления данных (вы не можете просто учитывать имя при сопоставлении, чтобы увидеть, если запись уже существует).

2 голосов
/ 12 декабря 2008

Если нет дополнительной информации о языке, это может быть довольно бесполезно. Я бы не стал тратить на это усилия, так как это, вероятно, работает только для небольшого населения.

PS: не забывайте китайские, русские и индийские имена (миллионы)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...