Программный доступ к литералам строки правила грамматики ANTLr вне контекста синтаксического анализа - PullRequest
0 голосов
/ 26 февраля 2020

Я пытаюсь обеспечить соответствие между допустимыми значениями, определенными грамматикой ANTLr, и набором URI типов, определенных в файле свойств в одном и том же проекте, в синхронизации c друг с другом (т.е. мы сталкиваемся с проблемами когда грамматика обновляется, но кто-то забывает добавить URI соответствующего типа в файл свойств для соответствующего токена. Я хотел бы иметь возможность добавить в проект модульный тест, который проверяет несоответствие, программным путем обращаясь к содержимому грамматики. rule.

Рассмотрим следующую надуманную грамматику:

grammar RuleTokenExtractionExample

// Parser Rules

start
    : line EOF
    ;

line
    : WS* fields WS*
    ;

fields
    : field (DELIMITER field)*
    ;

field
    : color
    | fruit
    | number
    ;

color
    : 'Red'
    | 'Orange'
    | 'Yellow'
    | 'Green'
    | 'Blue'
    | 'Indigo'
    | 'Violet'
    ;

fruit
    : 'Apple'
    | 'Apricot'
    | 'Banana'
    | 'Grapefruit'
    | 'Orange'
    | 'Pear'
    | 'Plum'
    ;

number
    : DIGIT (DIGIT*)
    ;

// Lexer Rules

DELIMITER: ',';
WS: [ \t];
DIGIT: [0-9];

В моем коде я хотел бы иметь возможность сделать вызов грамматики для получения токенов, определенных для правила типа " color "(например, что-то вроде myLexer.getVocabulary().getRule(RULE_color).getChildTokens();, в результате чего получается объект коллекции, содержимое которого" Red "," Orange "," Yellow "," Green "," Blue "," Indi go "и" Violet ").

Есть ли способ сделать это в ANTLr?

Я кодирую в Java, на случай, если это имеет значение.


Объединение ответов от @ mike-lischke и @ kaby76, у меня получилось нечто похожее на следующее решение. Наверное, не совсем правильно, но сделал то, что мне было нужно. Я приветствую исправления от более мудрых и опытных с ANTLr (поскольку я ни один из них).

public class RuleExtractor {
    public static Set<String> getTokensForRule(int ruleId) {
        Pattern quotedStringLiteral = Pattern.compile("'([^']+)'");
        Grammar grammar = new RuleTokenExtractionExampleGrammar(null);
        ATNState ruleState = grammar.getAtn().ruleToStartState[ruleId];

        Queue<ATNState> queue = new LinkedList();
        Stream.of(ruleState.getTransitions())
                .map(state -> state.target)
                .forEach(queue::add);

        List<String> tokens = new LinkedList<>();
        ATNState state;
        while (!queue.isEmpty()) {
            state = queue.remove();
            Stream.of(state.getTransitions())
                    .forEach(transition -> {
                        if (transition.getSerializationType() == Transition.ATOM) {
                            Matcher matcher = SINGLE_QUOTED_STRING.matcher(getTokenDisplayName(transition
                                    .label()
                                    .get(0)));
                            tokens.add(matcher.matches() ? matcher.group(1) : matcher.group(0));
                        } else {
                            queue.add(transition.target);
                        }
                    });
        }

        return tokens;
    }
}

В качестве ответа на мой первоначальный вопрос даю следующую команду:

List<String> tokens = RuleExtractor.getTokensForRule(RuleTokenExtractionExampleGrammar.RULE_color);
System.out.println(String.join(", ", tokens));
// Produces: Red, Orange, Yellow, Green, Blue, Indigo, Violet

Или, по крайней мере, так должно быть. На самом деле я не тестировал решение с надуманной грамматикой.

1 Ответ

1 голос
/ 27 февраля 2020

Информация, которую вы ищете, хранится в ATN, который генерируется из вашей грамматики. Существует класс LL1Analyzer, который возвращает все токены, которые достижимы в рамках одного правила, из заданного состояния ATN.

Переходит в начальное состояние из вашего правила color. Используйте ваш сгенерированный синтаксический анализатор, чтобы найти номер этого правила (это константа stati c) и используйте ATN, возвращенный из yourparser.getAtn(), чтобы найти это состояние по номеру правила через ATN.ruleToStartState.

* 1010. * Есть одно предупреждение, однако вам понадобится RuleContext, чтобы использовать класс LL1Analyzer. Из-за этого и других ограничений я переписал этот поиск в моем ядре для завершения кода . Этот код написан на Typescript, но есть Java порт .
...