Может быть, ваш первоначальный словарь (25000 слов) хранится в хеш-таблице db Беркли на диске, которую вы, вероятно, можете использовать непосредственно из c / c ++ (я знаю, что вы можете сделать это из perl), и для каждого слова в текст, запрос, если он присутствует в базе данных.