Я пытаюсь обеспечить соответствие между допустимыми значениями, определенными грамматикой ANTLr, и набором URI типов, определенных в файле свойств в одном и том же проекте, в синхронизации c друг с другом (т.е. мы сталкиваемся с проблемами когда грамматика обновляется, но кто-то забывает добавить URI соответствующего типа в файл свойств для соответствующего токена. Я хотел бы иметь возможность добавить в проект модульный тест, который проверяет несоответствие, программным путем обращаясь к содержимому грамматики. rule.
Рассмотрим следующую надуманную грамматику:
grammar RuleTokenExtractionExample
// Parser Rules
start
: line EOF
;
line
: WS* fields WS*
;
fields
: field (DELIMITER field)*
;
field
: color
| fruit
| number
;
color
: 'Red'
| 'Orange'
| 'Yellow'
| 'Green'
| 'Blue'
| 'Indigo'
| 'Violet'
;
fruit
: 'Apple'
| 'Apricot'
| 'Banana'
| 'Grapefruit'
| 'Orange'
| 'Pear'
| 'Plum'
;
number
: DIGIT (DIGIT*)
;
// Lexer Rules
DELIMITER: ',';
WS: [ \t];
DIGIT: [0-9];
В моем коде я хотел бы иметь возможность сделать вызов грамматики для получения токенов, определенных для правила типа " color "(например, что-то вроде myLexer.getVocabulary().getRule(RULE_color).getChildTokens();
, в результате чего получается объект коллекции, содержимое которого" Red "," Orange "," Yellow "," Green "," Blue "," Indi go "и" Violet ").
Есть ли способ сделать это в ANTLr?
Я кодирую в Java, на случай, если это имеет значение.
Объединение ответов от @ mike-lischke и @ kaby76, у меня получилось нечто похожее на следующее решение. Наверное, не совсем правильно, но сделал то, что мне было нужно. Я приветствую исправления от более мудрых и опытных с ANTLr (поскольку я ни один из них).
public class RuleExtractor {
public static Set<String> getTokensForRule(int ruleId) {
Pattern quotedStringLiteral = Pattern.compile("'([^']+)'");
Grammar grammar = new RuleTokenExtractionExampleGrammar(null);
ATNState ruleState = grammar.getAtn().ruleToStartState[ruleId];
Queue<ATNState> queue = new LinkedList();
Stream.of(ruleState.getTransitions())
.map(state -> state.target)
.forEach(queue::add);
List<String> tokens = new LinkedList<>();
ATNState state;
while (!queue.isEmpty()) {
state = queue.remove();
Stream.of(state.getTransitions())
.forEach(transition -> {
if (transition.getSerializationType() == Transition.ATOM) {
Matcher matcher = SINGLE_QUOTED_STRING.matcher(getTokenDisplayName(transition
.label()
.get(0)));
tokens.add(matcher.matches() ? matcher.group(1) : matcher.group(0));
} else {
queue.add(transition.target);
}
});
}
return tokens;
}
}
В качестве ответа на мой первоначальный вопрос даю следующую команду:
List<String> tokens = RuleExtractor.getTokensForRule(RuleTokenExtractionExampleGrammar.RULE_color);
System.out.println(String.join(", ", tokens));
// Produces: Red, Orange, Yellow, Green, Blue, Indigo, Violet
Или, по крайней мере, так должно быть. На самом деле я не тестировал решение с надуманной грамматикой.