Я ищу ссылки на разделение имени: «Джон А. Доу» по частям, первый = Джон, средний = А., последний = Доу. В Мексике у нас есть отцовские, материнские, первые и вторые имена, и они могут быть написаны разными перестановками, поэтому проблема довольно сложная.
Поскольку это зависит от данных, мы работаем с соответствующим программным обеспечением, которое рассчитывает оценку для каждого слова, чтобы мы могли принимать решения (это основано на большой базе данных). Входные данные не являются чистыми, они импортируются с некоторых правительственных веб-страниц и фильтруются человеком, поэтому они могут иметь нежелательную информацию, которая также должна быть распознана. Есть предложения?
[Изменить]
Примеры:
name:
Javier Abdul Córdoba Gándara
common permutations (or as it may appear in gvt data referring to same person):
Córdoba Gándara Javier Abdul
Javier A. Córdoba Gándara
Javier Abdul Córdoba G.
paternal=Córdoba
maternal=Gándara
first given:Javier
second given:Abdul
name: María de la Luz Sánchez Martínez
paternal:Sánchez
maternal: Martínez
first given: María de la Luz
name: Paloma Viridiana Alin Arias Medina
paternal: Arias
maternal: Medina
first given: Paloma
second given: Viridiana Alin
Как я уже сказал, значение каждого слова зависит от оценки. Никто не может знать, что
Viridiana
и
Alin
являются именами, если не из счета.
У нас очень сильная база данных (около 80 миллионов записей), поэтому мы можем использовать систему оценки. Я разрабатываю некоторый алгоритм, который использует это, но ищу другие ссылки.