Инструмент или API, необходимые для поиска текста, содержат любое слово из большого словаря слов - PullRequest
1 голос
/ 13 июля 2011

Я ищу инструмент (в идеале) или не могу API, чтобы найти текст для экземпляров любого слова из большого словаря слов в большом количестве текстовых файлов. «Слова» в моем случае на самом деле являются именами файлов, но не содержат пробелов.

Быстрый алгоритм может построить DFA (детерминированные конечные автоматы), прочитав словарь, и затем сможет использовать один проход для поиска экземпляров словарных слов в любом количестве файлов.

Примечание : Мне нужно точное совпадение текста, а не нечеткое совпадение, как этот вопрос: - Требуемый алгоритм: найти все слова словаря, которые похожи на слова в свободном тексте

Ответы [ 2 ]

1 голос
/ 13 июля 2011

Вы смотрели на люцен?Есть версия Java и .net

http://lucene.apache.org/java/docs/index.html

0 голосов
/ 13 июля 2011

Я бы загружал словарь слов в HashMap или «Словарь», затем читал файл построчно или слово за словом, проверяя, содержит ли слово слово.

...