Как использовать отступы в качестве разделителей блоков с бизоном и флексом - PullRequest
10 голосов
/ 12 сентября 2009

Я разбираюсь, как реализовать отступ в качестве разделителей блоков в bison + flex. Прямо как в питоне. Я пишу свой собственный язык программирования (в основном для развлечения, но я собираюсь использовать его вместе с игровым движком), я постараюсь придумать что-то особенное, что минимизирует шаблон и максимизирует скорость разработки.

Я уже написал компилятор (на самом деле `langToy ' для переводчика Nasm) на C, но не получилось. По какой-то причине он смог обработать только одну строку во всем исходном файле (ну, я не спал более 48 часов - так что ... вы знаете, распад мозга).

Я не знаю, легче ли реализовать фигурные скобки и / или начать -> конец (у меня нет проблем с этим) или же блокируется только мой мозг.

Заранее спасибо!


Обновление: Хорошо, я понятия не имею, как это сделать с помощью flex. У меня проблемы с возвратом нескольких DEDENT в парсер. Flex / Bison относительно новы для меня.


Обновление 2: Это гибкий файл, который я придумал до сих пор; это не совсем понятно:

%x t
%option noyywrap

%{
  int lineno = 0, ntab = 0, ltab = 0, dedent = 0;
%}

%%

<*>\n  { ntab = 0; BEGIN(t); }
<t>\t  { ++ntab; }
<t>.   { int i; /* my compiler complains not c99 if i use for( int i=0... */
         if( ntab > ltab )
           printf("> indent >\n");
         else if( ntab < ltab )
           for( i = 0; i < ltab - ntab; i++ )
             printf("< dedent <\n");
         else
           printf("=        =\n");

         ltab = ntab; ntab = 0;
         BEGIN(INITIAL);
         /* move to next rule */
         REJECT;}
.    /* ignore everything else for now */

%%

main()
{
  yyin = fopen( "test", "r" );
  yylex();
}

Вы можете попробовать поиграть с этим, может быть, вы видите, что мне не хватает. возвращение нескольких отступов было бы легко в Haxe (return t_dedent (num);).

Этот код не всегда правильно соответствует отступам / отступам.


Обновление 3: Я думаю, что оставлю надежду на flex и сделаю это по-своему. Если кто-нибудь знает, как это сделать в flex, я буду рад это услышать.

Ответы [ 4 ]

14 голосов
/ 22 сентября 2009

Вам нужно сделать так, чтобы flex подсчитывал количество пробелов в начале каждой строки и вставлял соответствующее количество токенов INDENT / UNINDENT, которые парсер будет использовать для группировки вещей. Один вопрос заключается в том, что вы хотите сделать с вкладками против пробелов - хотите ли вы, чтобы они были эквивалентны фиксированным позициям табуляции, или вы хотите, чтобы отступы были согласованными (поэтому, если одна строка начинается с вкладки, а следующая с пробелом вы сообщаете об ошибке, которая, вероятно, немного сложнее).

Предполагая, что вам нужны фиксированные табуляции из 8 столбцов, вы можете использовать что-то вроде

%{
/* globals to track current indentation */
int current_line_indent = 0;   /* indentation of the current line */
int indent_level = 0;          /* indentation level passed to the parser */
%}

%x indent /* start state for parsing the indentation */
%s normal /* normal start state for everything else */

%%
<indent>" "      { current_line_indent++; }
<indent>"\t"     { current_line_indent = (current_line_indent + 8) & ~7; }
<indent>"\n"     { current_line_indent = 0; /*ignoring blank line */ }
<indent>.        {
                   unput(*yytext);
                   if (current_line_indent > indent_level) {
                       indent_level++;
                       return INDENT;
                   } else if (current_line_indent < indent_level) {
                       indent_level--;
                       return UNINDENT;
                   } else {
                       BEGIN normal;
                   }
                 }

<normal>"\n"     { current_line_indent = 0; BEGIN indent; }
... other flex rules ...

Вы должны убедиться, что запускаете анализ в режиме отступа (чтобы получить отступ в первой строке).

5 голосов
/ 28 марта 2013

Ответ Криса имеет большое значение для полезного решения, большое спасибо за это! К сожалению, в нем отсутствуют еще несколько важных аспектов, которые мне были нужны:

  • Несколько выходных (нерасходных) одновременно. Представьте, что следующий код должен выдавать два отступа после вызова baz:

    def foo():
      if bar:
        baz()
    
  • Излучать отступы, когда достигнут конец файла, и он все еще находится на некотором уровне отступа.

  • Уровни отступов разного размера. Текущий код Криса корректно работает только для отступов в 1 пробел.

Основываясь на коде Криса, я нашел решение, которое работает во всех случаях, с которыми я сталкивался до сих пор. Я создал шаблон проекта для анализа текста на основе отступов с помощью flex (и bison) на github: https://github.com/lucasb-eyer/flex-bison-indentation. Это полностью рабочий (на основе CMake) проект, который также отслеживает положение строки и диапазон столбцов текущий токен.

На всякий случай, если по какой-либо причине ссылка прервется, вот мясо лексера:

#include <stack>

int g_current_line_indent = 0;
std::stack<size_t> g_indent_levels;
int g_is_fake_outdent_symbol = 0;

static const unsigned int TAB_WIDTH = 2;

#define YY_USER_INIT { \
    g_indent_levels.push(0); \
    BEGIN(initial); \
}
#include "parser.hh"

%}

%x initial
%x indent
%s normal

%%
    int indent_caller = normal;

 /* Everything runs in the <normal> mode and enters the <indent> mode
    when a newline symbol is encountered.
    There is no newline symbol before the first line, so we need to go
    into the <indent> mode by hand there.
 */
<initial>.  { set_yycolumn(yycolumn-1); indent_caller = normal; yyless(0); BEGIN(indent); }
<initial>\n { indent_caller = normal; yyless(0); BEGIN(indent); }    

<indent>" "     { g_current_line_indent++; }
<indent>\t      { g_current_line_indent = (g_current_line_indent + TAB_WIDTH) & ~(TAB_WIDTH-1); }
<indent>\n      { g_current_line_indent = 0; /* ignoring blank line */ }
<indent><<EOF>> {
                    // When encountering the end of file, we want to emit an
                    // outdent for all indents currently left.
                    if(g_indent_levels.top() != 0) {
                        g_indent_levels.pop();

                        // See the same code below (<indent>.) for a rationale.
                        if(g_current_line_indent != g_indent_levels.top()) {
                            unput('\n');
                            for(size_t i = 0 ; i < g_indent_levels.top() ; ++i) {
                                unput(' ');
                            }
                        } else {
                            BEGIN(indent_caller);
                        }

                        return TOK_OUTDENT;
                    } else {
                        yyterminate();
                    }
                }

<indent>.       {
                    if(!g_is_fake_outdent_symbol) {
                        unput(*yytext);
                    }
                    g_is_fake_outdent_symbol = 0;
                    // -2: -1 for putting it back and -1 for ending at the last space.
                    set_yycolumn(yycolumn-1);

                    // Indentation level has increased. It can only ever
                    // increase by one level at a time. Remember how many
                    // spaces this level has and emit an indentation token.
                    if(g_current_line_indent > g_indent_levels.top()) {
                        g_indent_levels.push(g_current_line_indent);
                        BEGIN(indent_caller);
                        return TOK_INDENT;
                    } else if(g_current_line_indent < g_indent_levels.top()) {
                        // Outdenting is the most difficult, as we might need to
                        // outdent multiple times at once, but flex doesn't allow
                        // emitting multiple tokens at once! So we fake this by
                        // 'unput'ting fake lines which will give us the next
                        // outdent.
                        g_indent_levels.pop();

                        if(g_current_line_indent != g_indent_levels.top()) {
                            // Unput the rest of the current line, including the newline.
                            // We want to keep it untouched.
                            for(size_t i = 0 ; i < g_current_line_indent ; ++i) {
                                unput(' ');
                            }
                            unput('\n');
                            // Now, insert a fake character indented just so
                            // that we get a correct outdent the next time.
                            unput('.');
                            // Though we need to remember that it's a fake one
                            // so we can ignore the symbol.
                            g_is_fake_outdent_symbol = 1;
                            for(size_t i = 0 ; i < g_indent_levels.top() ; ++i) {
                                unput(' ');
                            }
                            unput('\n');
                        } else {
                            BEGIN(indent_caller);
                        }

                        return TOK_OUTDENT;
                    } else {
                        // No change in indentation, not much to do here...
                        BEGIN(indent_caller);
                    }
                }

<normal>\n    { g_current_line_indent = 0; indent_caller = YY_START; BEGIN(indent); }
1 голос
/ 12 сентября 2009

Вьющиеся скобки (и такие) проще только в том случае, если вы используете токенизатор, который удаляет все пробелы (используется только для разделения токенов). См. эту страницу (раздел «Как компилятор анализирует отступ?»), Чтобы узнать некоторые идеи по токенизации Python.

Если вы не выполняете токенизацию перед синтаксическим анализом, тогда может потребоваться дополнительная работа, это зависит от того, как вы создаете синтаксический анализатор.

0 голосов
/ 12 сентября 2009

Вам нужно правило, которое выглядит аналогично этому (предполагается, что вы используете вкладки для своих отступов):

\ t: {return TABDENT; }

Честно говоря, я всегда обнаружил, что скобки (или начало / конец) легче писать и читать, как для человека, так и для автора лексера / парсера.

...