В настоящее время мы используем Lucene 2.3.2 и хотим перейти на 3.4.0. У нас есть свой собственный Tokenizer, сгенерированный с помощью Java CC, который используется с тех пор, как мы начали использовать Lucene, и мы хотим продолжать в том же духе. Я ценю ссылки на любые ресурсы, связанные со сборкой Tokenizer для нового API TokenStream из грамматики.
UPDATE:
Я нашел грамматику, используемую для генерации StandardTokenizer, в http://svn.apache.org/viewvc/lucene/java/trunk/src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex?view=log&pathrev=692211. Измененная грамматика в соответствии с нашими требованиями и сгенерированный Java-код с использованием jflex http://jflex.de/