Question

В настоящее время мы используем Lucene 2.3.2 и хотим перейти на 3.4.0. У нас есть свой собственный Tokenizer, сгенерированный с помощью Java CC, который используется с тех пор, как мы начали использовать Lucene, и мы хотим продолжать в том же духе. Я ценю ссылки на любые ресурсы, связанные со сборкой Tokenizer для нового API TokenStream из грамматики.

UPDATE:

Я нашел грамматику, используемую для генерации StandardTokenizer, в http://svn.apache.org/viewvc/lucene/java/trunk/src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex?view=log&pathrev=692211. Измененная грамматика в соответствии с нашими требованиями и сгенерированный Java-код с использованием jflex http://jflex.de/

naresh · Answer 1 · 08 ноября 2011

Я нашел грамматику, используемую для генерации StandardTokenizer, в http://svn.apache.org/viewvc/lucene/java/trunk/src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex?view=log&pathrev=692211. Измененная грамматика в соответствии с нашими требованиями и сгенерированный Java-код с использованием jflex http://jflex.de/

Генерация пользовательского Tokenizer для нового API TokenStream с использованием JFlex / Java CC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Генерация пользовательского Tokenizer для нового API TokenStream с использованием JFlex / Java CC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы