Question

Я студент и хочу внедрить синтаксический анализатор сверху вниз в моем проекте языкового перевода, который разработан с использованием языка c #. например, если мне нужно создать дерево синтаксического анализатора для предложения «Меня зовут Хусни, и я студент», как я могу сделать это на языке C #.

riwalk · Answer 1 · 11 ноября 2011

Я очень рекомендую эту книгу:

Основы разработки компилятора

Вы можете скачать PDF бесплатно. Он охватывает разбор (как сверху вниз, так и снизу вверх) всеобъемлющим образом, не делая слишком много предположений о вашем фоне.

Очень хорошее чтение.

А как это сделать в C #? Точно так же, как вы делаете это на любом другом языке, просто используя синтаксис C #. Изучите теорию, и код станет естественным.

hrzafer · Answer 2 · 12 ноября 2011

Вы пытаетесь разобрать естественный язык, который неоднозначен.Это означает, что ваш синтаксический анализатор разрешил бы несколько деревьев разбора для предложения.Вот почему я не думаю, что обычные инструменты проектирования языков, такие как ANTLR, помогут.

Я использую PEP динамический анализатор CFG с нисходящим потоком.Это написано на Java.Портировать его на c # было бы проще, чем писать новый с нуля.

Nicholas Carey · Answer 3 · 11 ноября 2011

Вы устанавливаете Antlr: http://www.antlr.org/

Отличный инструмент построения компилятора, который генерирует синтаксические анализаторы рекурсивного спуска сверху вниз по формальным спецификациям грамматики.

И вы получаете копию книг Терранса Парра:

Другим выбором может быть Irony.Net: http://irony.codeplex.com/

Irony - это набор для разработки для реализации языков в .NETПлатформа.В отличие от большинства существующих решений в стиле yacc / lex, Irony не использует никакой сканер или генерацию кода анализатора из спецификаций грамматики, написанных на специализированном метаязыке.В Irony грамматика целевого языка кодируется непосредственно в c # с использованием перегрузки операторов для выражения грамматических конструкций.Модули сканера и синтаксического анализатора Irony используют грамматику, закодированную как класс c #, для управления процессом синтаксического анализа.

Вот пример грамматики выражения Irony для анализа арифметических выражений:

using System;
using System.Collections.Generic;
using System.Text;
using Irony.Parsing;
using Irony.Ast;

namespace Irony.Samples
{
  // This grammar describes programs that consist of simple expressions and assignments
  // for ex:
  // x = 3
  // y = -x + 5
  //  the result of calculation is the result of last expression or assignment.
  //  Irony's default  runtime provides expression evaluation. 
  //  supports inc/dec operators (++,--), both prefix and postfix,
  //  and combined assignment operators like +=, -=, etc.

  [Language("ExpressionEvaluator", "1.0", "Multi-line expression evaluator")]
  public class ExpressionEvaluatorGrammar : Irony.Parsing.Grammar
  {

    public ExpressionEvaluatorGrammar()
    {

      // 1. Terminals
      var number = new NumberLiteral("number");

      //Let's allow big integers (with unlimited number of digits):
      number.DefaultIntTypes = new TypeCode[] { TypeCode.Int32, TypeCode.Int64, NumberLiteral.TypeCodeBigInt };
      var identifier         = new IdentifierTerminal("identifier");
      var comment            = new CommentTerminal("comment", "#", "\n", "\r"); 

      //comment must to be added to NonGrammarTerminals list; it is not used directly in grammar rules,
      // so we add it to this list to let Scanner know that it is also a valid terminal. 
      base.NonGrammarTerminals.Add(comment);

      // 2. Non-terminals
      var Expr           = new NonTerminal("Expr");
      var Term           = new NonTerminal("Term");
      var BinExpr        = new NonTerminal("BinExpr", typeof(BinExprNode));
      var ParExpr        = new NonTerminal("ParExpr");
      var UnExpr         = new NonTerminal("UnExpr", typeof(UnExprNode));
      var UnOp           = new NonTerminal("UnOp");
      var BinOp          = new NonTerminal("BinOp", "operator");
      var PostFixExpr    = new NonTerminal("PostFixExpr", typeof(UnExprNode));
      var PostFixOp      = new NonTerminal("PostFixOp");
      var AssignmentStmt = new NonTerminal("AssignmentStmt", typeof(AssigmentNode));
      var AssignmentOp   = new NonTerminal("AssignmentOp", "assignment operator");
      var Statement      = new NonTerminal("Statement");
      var ProgramLine    = new NonTerminal("ProgramLine");
      var Program        = new NonTerminal("Program", typeof(StatementListNode));

      // 3. BNF rules
      Expr.Rule           = Term | UnExpr | BinExpr | PostFixExpr;
      Term.Rule           = number | ParExpr | identifier;
      ParExpr.Rule        = "(" + Expr + ")";
      UnExpr.Rule         = UnOp + Term;
      UnOp.Rule           = ToTerm("+") | "-" | "++" | "--";
      BinExpr.Rule        = Expr + BinOp + Expr;
      BinOp.Rule          = ToTerm("+") | "-" | "*" | "/" | "**";
      PostFixExpr.Rule    = Term + PostFixOp;
      PostFixOp.Rule      = ToTerm("++") | "--";
      AssignmentStmt.Rule = identifier + AssignmentOp + Expr;
      AssignmentOp.Rule   = ToTerm("=") | "+=" | "-=" | "*=" | "/=";
      Statement.Rule      = AssignmentStmt | Expr | Empty;
      ProgramLine.Rule    = Statement + NewLine;
      Program.Rule        = MakeStarRule(Program, ProgramLine);
      this.Root           = Program;       // Set grammar root

      // 4. Operators precedence
      RegisterOperators(1, "+", "-");
      RegisterOperators(2, "*", "/");
      RegisterOperators(3, Associativity.Right, "**");

      // 5. Punctuation and transient terms
      RegisterPunctuation("(", ")");
      RegisterBracePair("(", ")"); 
      MarkTransient(Term, Expr, Statement, BinOp, UnOp, PostFixOp, AssignmentOp, ProgramLine, ParExpr);

      //automatically add NewLine before EOF so that our BNF rules work correctly when there's no final line break in source
      this.LanguageFlags = LanguageFlags.CreateAst | LanguageFlags.NewLineBeforeEOF | LanguageFlags.CanRunSample; 

    }

  }

}//namespace

Третьим вариантом будетиспользуйте что-то вроде NParsec, C # -порта Parsec Haskell (монадические комбинаторы синтаксического анализатора - в C #, по сути, использующие Linq для написания синтаксических анализаторов): http://www.haskell.org/haskellwiki/Parsec#Parsec_clones_in_other_languages, или другую такую библиотеку, как Rx Parser: http://rxx.codeplex.com/wikipage?title=Parsers

Подробнее о монадических парсерах-комбинаторах здесь:

Felice Pollano · Answer 4 · 11 ноября 2011

После книги вы также можете прочитать о генераторе компилятора как ANTLR , который может помочь вам написать компилятор (также на C #) и просматривать AST даже визуально.

Реализация анализатора сверху вниз в C #

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Реализация анализатора сверху вниз в C #

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы