Question

Я ищу инструмент (в идеале) или не могу API, чтобы найти текст для экземпляров любого слова из большого словаря слов в большом количестве текстовых файлов. «Слова» в моем случае на самом деле являются именами файлов, но не содержат пробелов.

Быстрый алгоритм может построить DFA (детерминированные конечные автоматы), прочитав словарь, и затем сможет использовать один проход для поиска экземпляров словарных слов в любом количестве файлов.

Примечание : Мне нужно точное совпадение текста, а не нечеткое совпадение, как этот вопрос: - Требуемый алгоритм: найти все слова словаря, которые похожи на слова в свободном тексте

Boas Enkler · Answer 1 · 13 июля 2011

Вы смотрели на люцен?Есть версия Java и .net

http://lucene.apache.org/java/docs/index.html

NoBugs · Answer 2 · 13 июля 2011

Я бы загружал словарь слов в HashMap или «Словарь», затем читал файл построчно или слово за словом, проверяя, содержит ли слово слово.

Инструмент или API, необходимые для поиска текста, содержат любое слово из большого словаря слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Инструмент или API, необходимые для поиска текста, содержат любое слово из большого словаря слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы