Генерация пользовательского Tokenizer для нового API TokenStream с использованием JFlex / Java CC - PullRequest
2 голосов
/ 21 октября 2011

В настоящее время мы используем Lucene 2.3.2 и хотим перейти на 3.4.0. У нас есть свой собственный Tokenizer, сгенерированный с помощью Java CC, который используется с тех пор, как мы начали использовать Lucene, и мы хотим продолжать в том же духе. Я ценю ссылки на любые ресурсы, связанные со сборкой Tokenizer для нового API TokenStream из грамматики.

UPDATE:

Я нашел грамматику, используемую для генерации StandardTokenizer, в http://svn.apache.org/viewvc/lucene/java/trunk/src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex?view=log&pathrev=692211. Измененная грамматика в соответствии с нашими требованиями и сгенерированный Java-код с использованием jflex http://jflex.de/

1 Ответ

2 голосов
/ 08 ноября 2011

Я нашел грамматику, используемую для генерации StandardTokenizer, в http://svn.apache.org/viewvc/lucene/java/trunk/src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex?view=log&pathrev=692211. Измененная грамматика в соответствии с нашими требованиями и сгенерированный Java-код с использованием jflex http://jflex.de/

...