Список имен собственных? - PullRequest
       7

Список имен собственных?

5 голосов
/ 28 января 2010

Я пытаюсь отфильтровать имена из текстовых BLOB-объектов. В настоящее время я просто генерирую список слов и фильтрую его вручную, но у меня осталось ~ 8 тыс. Слов, поэтому я ищу лучший путь. Я мог бы взять словарь и отфильтровать их, но это отбросило бы имена, такие как Смит и Клифф.

Мне нужно одно из следующих:

  • список общих имен (мне нужно> 5k наиболее распространенных имен)
  • список имен, которые также являются словами

Я думаю между ними, я могу создать комбинированный черный / белый список, чтобы получить то, что мне нужно.

Ответы [ 2 ]

5 голосов
/ 28 января 2010

Список переписей США: http://www.census.gov/genealogy/www/

В любом случае это должно дать вам единый взгляд на проблему.

отредактировано измененный URL, согласно комментарию ниже о перемещении страницы. Никто больше не верит в HTTP 302?

2 голосов
/ 21 июня 2016

Из сообщения, которое я нашел на Quora :

Проект NELL CMU собрал огромный список имен собственных в Интернете и классифицировал их по типу. Вы можете просматривать онлайн по адресу: Браузер базы знаний NELL и загружать данные по адресу: Ресурсы и данные .

Поиск в Интернете результатов, скажем, для personUS кажется более эффективным, чем то, что я сделал, - это извлечение списка имен из фраз, помеченных как "персона" в их большом CSV-файле с разделителями табуляции. В любом случае вы будете использовать регулярное выражение.

...