поиск 25 000 слов в тексте - PullRequest
       34

поиск 25 000 слов в тексте

17 голосов
/ 30 сентября 2008

Мне нужно найти вхождения ~ 25 000 слов в тексте. Какой алгоритм / библиотека наиболее подходит для этой цели?

целевой язык - C ++

Ответы [ 12 ]

0 голосов
/ 30 сентября 2008

Может быть, ваш первоначальный словарь (25000 слов) хранится в хеш-таблице db Беркли на диске, которую вы, вероятно, можете использовать непосредственно из c / c ++ (я знаю, что вы можете сделать это из perl), и для каждого слова в текст, запрос, если он присутствует в базе данных.

0 голосов
/ 30 сентября 2008

ViceBerg говорит:

Я однажды использовал алгоритм Бойера-Мура и это было довольно быстро.

С Бойер-Муром, вы обычно не ищете в блоке текста строку single ?

Для простого внедрения решения воспользуйтесь подходом хеш-таблицы, предложенным Хавьером. Фильтр Блума, предложенный FatCat1111, тоже должен работать ... в зависимости от целей.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...