Реализация анализатора сверху вниз в C # - PullRequest
1 голос
/ 11 ноября 2011

Я студент и хочу внедрить синтаксический анализатор сверху вниз в моем проекте языкового перевода, который разработан с использованием языка c #. например, если мне нужно создать дерево синтаксического анализатора для предложения «Меня зовут Хусни, и я студент», как я могу сделать это на языке C #.

Ответы [ 4 ]

3 голосов
/ 11 ноября 2011

Я очень рекомендую эту книгу:

Основы разработки компилятора

Вы можете скачать PDF бесплатно. Он охватывает разбор (как сверху вниз, так и снизу вверх) всеобъемлющим образом, не делая слишком много предположений о вашем фоне.

Очень хорошее чтение.

А как это сделать в C #? Точно так же, как вы делаете это на любом другом языке, просто используя синтаксис C #. Изучите теорию, и код станет естественным.

0 голосов
/ 12 ноября 2011

Вы пытаетесь разобрать естественный язык, который неоднозначен.Это означает, что ваш синтаксический анализатор разрешил бы несколько деревьев разбора для предложения.Вот почему я не думаю, что обычные инструменты проектирования языков, такие как ANTLR, помогут.

Я использую PEP динамический анализатор CFG с нисходящим потоком.Это написано на Java.Портировать его на c # было бы проще, чем писать новый с нуля.

0 голосов
/ 11 ноября 2011

Вы устанавливаете Antlr: http://www.antlr.org/

Отличный инструмент построения компилятора, который генерирует синтаксические анализаторы рекурсивного спуска сверху вниз по формальным спецификациям грамматики.

И вы получаете копию книг Терранса Парра:

Другим выбором может быть Irony.Net: http://irony.codeplex.com/

Irony - это набор для разработки для реализации языков в .NETПлатформа.В отличие от большинства существующих решений в стиле yacc / lex, Irony не использует никакой сканер или генерацию кода анализатора из спецификаций грамматики, написанных на специализированном метаязыке.В Irony грамматика целевого языка кодируется непосредственно в c # с использованием перегрузки операторов для выражения грамматических конструкций.Модули сканера и синтаксического анализатора Irony используют грамматику, закодированную как класс c #, для управления процессом синтаксического анализа.

Вот пример грамматики выражения Irony для анализа арифметических выражений:

using System;
using System.Collections.Generic;
using System.Text;
using Irony.Parsing;
using Irony.Ast;

namespace Irony.Samples
{
  // This grammar describes programs that consist of simple expressions and assignments
  // for ex:
  // x = 3
  // y = -x + 5
  //  the result of calculation is the result of last expression or assignment.
  //  Irony's default  runtime provides expression evaluation. 
  //  supports inc/dec operators (++,--), both prefix and postfix,
  //  and combined assignment operators like +=, -=, etc.

  [Language("ExpressionEvaluator", "1.0", "Multi-line expression evaluator")]
  public class ExpressionEvaluatorGrammar : Irony.Parsing.Grammar
  {

    public ExpressionEvaluatorGrammar()
    {

      // 1. Terminals
      var number = new NumberLiteral("number");

      //Let's allow big integers (with unlimited number of digits):
      number.DefaultIntTypes = new TypeCode[] { TypeCode.Int32, TypeCode.Int64, NumberLiteral.TypeCodeBigInt };
      var identifier         = new IdentifierTerminal("identifier");
      var comment            = new CommentTerminal("comment", "#", "\n", "\r"); 

      //comment must to be added to NonGrammarTerminals list; it is not used directly in grammar rules,
      // so we add it to this list to let Scanner know that it is also a valid terminal. 
      base.NonGrammarTerminals.Add(comment);

      // 2. Non-terminals
      var Expr           = new NonTerminal("Expr");
      var Term           = new NonTerminal("Term");
      var BinExpr        = new NonTerminal("BinExpr", typeof(BinExprNode));
      var ParExpr        = new NonTerminal("ParExpr");
      var UnExpr         = new NonTerminal("UnExpr", typeof(UnExprNode));
      var UnOp           = new NonTerminal("UnOp");
      var BinOp          = new NonTerminal("BinOp", "operator");
      var PostFixExpr    = new NonTerminal("PostFixExpr", typeof(UnExprNode));
      var PostFixOp      = new NonTerminal("PostFixOp");
      var AssignmentStmt = new NonTerminal("AssignmentStmt", typeof(AssigmentNode));
      var AssignmentOp   = new NonTerminal("AssignmentOp", "assignment operator");
      var Statement      = new NonTerminal("Statement");
      var ProgramLine    = new NonTerminal("ProgramLine");
      var Program        = new NonTerminal("Program", typeof(StatementListNode));

      // 3. BNF rules
      Expr.Rule           = Term | UnExpr | BinExpr | PostFixExpr;
      Term.Rule           = number | ParExpr | identifier;
      ParExpr.Rule        = "(" + Expr + ")";
      UnExpr.Rule         = UnOp + Term;
      UnOp.Rule           = ToTerm("+") | "-" | "++" | "--";
      BinExpr.Rule        = Expr + BinOp + Expr;
      BinOp.Rule          = ToTerm("+") | "-" | "*" | "/" | "**";
      PostFixExpr.Rule    = Term + PostFixOp;
      PostFixOp.Rule      = ToTerm("++") | "--";
      AssignmentStmt.Rule = identifier + AssignmentOp + Expr;
      AssignmentOp.Rule   = ToTerm("=") | "+=" | "-=" | "*=" | "/=";
      Statement.Rule      = AssignmentStmt | Expr | Empty;
      ProgramLine.Rule    = Statement + NewLine;
      Program.Rule        = MakeStarRule(Program, ProgramLine);
      this.Root           = Program;       // Set grammar root

      // 4. Operators precedence
      RegisterOperators(1, "+", "-");
      RegisterOperators(2, "*", "/");
      RegisterOperators(3, Associativity.Right, "**");

      // 5. Punctuation and transient terms
      RegisterPunctuation("(", ")");
      RegisterBracePair("(", ")"); 
      MarkTransient(Term, Expr, Statement, BinOp, UnOp, PostFixOp, AssignmentOp, ProgramLine, ParExpr);

      //automatically add NewLine before EOF so that our BNF rules work correctly when there's no final line break in source
      this.LanguageFlags = LanguageFlags.CreateAst | LanguageFlags.NewLineBeforeEOF | LanguageFlags.CanRunSample; 

    }

  }

}//namespace

Третьим вариантом будетиспользуйте что-то вроде NParsec, C # -порта Parsec Haskell (монадические комбинаторы синтаксического анализатора - в C #, по сути, использующие Linq для написания синтаксических анализаторов): http://www.haskell.org/haskellwiki/Parsec#Parsec_clones_in_other_languages, или другую такую ​​библиотеку, как Rx Parser: http://rxx.codeplex.com/wikipage?title=Parsers

Подробнее о монадических парсерах-комбинаторах здесь:

0 голосов
/ 11 ноября 2011

После книги вы также можете прочитать о генераторе компилятора как ANTLR , который может помочь вам написать компилятор (также на C #) и просматривать AST даже визуально.

...