Справка ANTLR - не может разобрать обычный текст, но работают все другие более сложные правила - PullRequest
1 голос
/ 09 ноября 2011

У меня очень простая грамматика - она ​​анализирует набор текста, который был введен пользователем для различных ключевых слов, а затем выполняет замену строк для этих ключевых слов, оставляя весь остальной текст "как есть".

По сути, эта грамматика не должна ничего делать с большей частью текста ... она должна просто повторять этот текст ... за исключением случаев, когда она встречается с ${...}, $video{...}, $image{...} и $audio{...}

Моя грамматика в основном работает сейчас, но она не может анализировать обычный текст, например hey, используя правило chunk , но по какой-то причине она анализирует <p>hey</p>, используя чанк правило.Зачем?Как я могу заставить оба использовать правило chunk ?

По сути, я хочу, чтобы CHUNK перехватывал все остальное, что не подобрано другими правилами.

Я немного переработал грамматику, чтобы все стало понятнее.Казалось бы, все остальное путается с label ?Я не знаю, но hey не работает: (

grammar Text;

@header {
}

@members {
    int numberOfVideos = 0;
    StringBuilder builder = new StringBuilder();

    public String getResult() {
        return builder.toString();
    }
}

text
    :   expression*
    ;

expression
    :   fillInTheBlank 
        {
            builder.append($fillInTheBlank.value);
        }
    |   image 
        {
            builder.append($image.value);
        }
    |   video
        {
            builder.append($video.value);
        }
    |   audio
        {
            builder.append($audio.value);
        }
    |   anchor
        {
            builder.append($anchor.value);
        }
    |   everythingElse
        {
            builder.append($everythingElse.value);
        }
    ;

fillInTheBlank returns [String value]
    :   '${' LABEL '}' 
        {
            $value = "<input type=\"text\" id=\"" +
                $LABEL.text +
                "\" name=\"" + 
                $LABEL.text +
                "\" class=\"FillInTheBlankAnswer\" />";
        }
    ;

image returns [String value]
    :   '$image{' URL '}'
        {
            $value = "<img src=\"" + $URL.text + "\" />";
        }
    ;

video returns [String value]
    :   '$video{' URL '}'
        {
            numberOfVideos++;

            StringBuilder b = new StringBuilder();
            b.append("<div id=\"video1\">Loading the player ...</div>\r\n");
            b.append("<script type=\"text/javascript\">\r\n");
            b.append("\tjwplayer(\"video" + numberOfVideos + "\").setup({\r\n");
            b.append("\t\tflashplayer: \"/trainingdividend/js/jwplayer/player.swf\", file: \"");
            b.append($URL.text);
            b.append("\"\r\n\t});\r\n");
            b.append("</script>\r\n");

            $value = b.toString();
        }
    ;

audio returns [String value]
    :   '$audio{' URL '}'
        {
            $value = $URL.text;
        }
    ;   

anchor returns [String value]
    :   URL
        {
            $value = "<a href=\"" + $URL.text + "\">" + $URL.text + "</a>";
        }
    ;   

everythingElse returns [String value]
    :   CHUNK
        {
            $value = $CHUNK.text;
        }
    ;

LABEL
    :   ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
    ;
URL
    :   'http://' ('a'..'z'|'A'..'Z'|'0'..'9'|'.'|'/'|'-'|'_'|'%'|'&'|'?')+
    ;
CHUNK
    //: (~('${'|'$video{'|'$image{'|'$audio{'))+
    :   ('a'..'z'|'A'..'Z'|'0'..'9'|'-'|' '|','|'.'|'?'|'\''|':'|'\t'|'\n'|'\r'|'\"'|'>'|'<'|'/'|'_'|'='|';'|'('|')'|'&')+
    ;

Я новичок в antlr - использую его около дня, поэтому, пожалуйста, не ожидайте, что я узнаю многооб этом конкретно.

1 Ответ

2 голосов
/ 09 ноября 2011

Я выбираю этот способ ответа из-за ограниченного пространства и отсутствия возможностей форматирования. Так или иначе:

Нет. CHUNK и LABEL - это правила Lexer (Scanner), тогда как fillInTheBlank - это правило синтаксического анализатора. Парсер работает поверх сканера, то есть сканер не знает о парсере (правилах). Вы должны ввести состояний лексера :

Во-первых, вы должны ввести еще одного члена лексера, который будет следить за состоянием, сообщая вам, хотите ли вы прочитать этикетку или нет:

@lexer::members {
    private boolean readLabel = false;
}

Затем вы должны ввести явные определения токенов для '$ ​​{' и '}' (я называю их BEGIN_VAR и END_VAR), которые изменяют эту переменную состояния. Кроме того, токены END_VAR могут быть созданы, только если readLabel имеет значение true:

BEGIN_VAR
    : '${' { readLabel = true; };

END_VAR : { readLabel }?=> '}' { readLabel = false; };

Вы также должны сообщить лексеру, что токены LABEL также должны генерироваться только в этом состоянии:

LABEL
    :   { readLabel }?=> ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
    ;

Обратите внимание, что здесь важно, чтобы это определение появилось до CHUNK.

Наконец, вам нужно изменить правило fillInTheBlanks, используя приведенные выше определения токенов:

fillInTheBlank returns [String value]
    :   BEGIN_VAR LABEL END_VAR 
        { ...

Надеюсь, это поможет, кажется, работает для меня.

...