Я ищу инструмент (в идеале) или не могу API, чтобы найти текст для экземпляров любого слова из большого словаря слов в большом количестве текстовых файлов. «Слова» в моем случае на самом деле являются именами файлов, но не содержат пробелов.
Быстрый алгоритм может построить DFA (детерминированные конечные автоматы), прочитав словарь, и затем сможет использовать один проход для поиска экземпляров словарных слов в любом количестве файлов.
Примечание : Мне нужно точное совпадение текста, а не нечеткое совпадение, как этот вопрос:
- Требуемый алгоритм: найти все слова словаря, которые похожи на слова в свободном тексте