Источник для имен для использования в веб-очистке - PullRequest
1 голос
/ 25 апреля 2010

Может кто-нибудь предложить хороший источник имен, который я могу использовать, чтобы помочь проанализировать некоторые таблицы на веб-страницах.

В первом столбце таблиц, которые я собираю, есть только имена, имена и заголовки или только заголовки.

Имена могут быть такими же разными, как от Джона Смита до Викрама Саксены.
Я искал скомпилированный список слов, которые можно найти в собственных именах.

Отредактировано Я попробовал набор имен из переписи, и в нем столько мусора, что работать с ним не стоит.

1 Ответ

1 голос
/ 25 апреля 2010

Скачать исходный код проекта Febrl .

Это папка с данными содержит таблицы имен (данные / middle / surnames / etc). Возможно, вам придется массировать данные для собственных нужд.

Для фамилий вы можете проверить данные переписи населения США. У меня сейчас нет ссылки, но я знаю, что раньше использовал общие фамилии США из этого источника.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...