Слово о токенизаторе
Tokenizer (* TokenManager) соответствует как можно большему количеству вводимых символов. PI_DATA - это «~ []» (1 символ), поэтому он будет соответствовать любому вводимому символу , если , он не сможет найти более длинное соответствие. PI_END - это «?>» (2 символа), поэтому он всегда будет сопоставляться вместо PI_DATA. Эта часть вашей грамматики верна.
Неожиданный подозреваемый
Проблема на самом деле может исходить от ИМЕНИ. Вы не написали фактическое определение этого токена, поэтому я могу только делать предположения об этом. Если определение NAME слишком жадное , оно будет соответствовать слишком большому количеству входных символов в состоянии PROC_INST, и вы можете никогда не встретить PI_DATA или PI_END.
Остерегайтесь "(...) +" с пробелами или злом "(~ []) *", который съедает все до EOF.
Другие подозреваемые
Потенциальная проблема, которую я вижу, состоит в том, что PI_TARGET, вероятно, будет сопоставляться несколько раз, хотя можно ожидать, что PI_DATA будет сопоставляться. Еще раз, я могу только догадываться, потому что у меня нет определения ИМЯ.
Еще один момент, который вы можете уточнить, заключается в следующем: вы определяете токен WSS, но не используете его в состоянии PROC_INST. Это должно быть частью PI_DATA? Если нет, вы можете пропустить его.
Не злоупотребляйте токенизатором
Если вы обнаружите, что не можете заставить токенизатор подчиняться вам, вы можете вместо этого переместить сложную часть в анализатор. В вашем случае, вероятно, трудно провести различие между PI_TARGET и PI_DATA (как упомянуто выше).
Анализатор может ожидать данных PI после цели PI, в то время как токенизатор не может (или вряд ли) иметь ожидания от токена до следующего.
Еще одним преимуществом парсера является то, что вы даже можете написать код Java, который просматривает следующие токены и реагирует соответствующим образом. Это следует рассматривать как последнее средство, но может быть полезно, когда необходимо выполнить такие действия, как объединение нескольких токенов до общеизвестного. Это может быть то, что вы ищете здесь (с PI_END в качестве маркера терминатора ).
Наконец, трюк
Вот трюк, чтобы немного упростить вашу грамматику:
- Пропустите PI_START, но все же измените состояние на PROC_INST
- В PROC_INST определите PI_DATA как MORE (и переименуйте его в PI_DATA_CHAR, или просто не называйте его вообще)
- В PROC_INST удалите последние два символа из образа токена, введите PI_DATA и измените состояние на ПО УМОЛЧАНИЮ
- В ваших продуктах синтаксического анализа определите инструкцию обработки просто как, где образ токена PI_DATA готов к использованию
Подробная информация об управлении изображением токена в действиях токенизатора приведена в документации JavaCC (sparse ...). Это так же просто, как установить длину StringBuffer.