Поиск имен в больших текстах - PullRequest
1 голос
/ 20 сентября 2009

Как лучше всего анализировать большие тексты (5000 слов и более), искать имена, которые хранятся в базе данных? Тексты будут многоязычными.

Моя первая идея - довольно наивный подход, когда все слова начинаются с большой буквы и сравниваются с базой данных. Но это обычно приводит к сбою в текстах, содержащих только строчные буквы.

Редактировать Тексты не статичны, а динамичны (например, веб-сайты)

Лучший

Macs

Ответы [ 4 ]

4 голосов
/ 20 сентября 2009
0 голосов
/ 20 сентября 2009

Я сделал метод замены нескольких строк в большом тексте здесь: Лучший способ заменить много строк - запутывание в C # . Возможно, вы можете использовать тот же принцип.

0 голосов
/ 20 сентября 2009

Вам понадобится словарь имен.

Или вы можете попробовать http://www.opencalais.com/, который знает довольно большую коллекцию имен.

0 голосов
/ 20 сентября 2009

Вы можете использовать алгоритм Aho-Corasick и создать словарь с именами, которые вы пытаетесь сопоставить. Это линейно по количеству токенов в тексте плюс количество совпавших имен.

...