OCaml + Менгир Компиляция / Написание - PullRequest
12 голосов
/ 28 марта 2012

Я полный новичок, когда дело доходит до OCaml. Я только недавно начал использовать язык (около 2 недель назад), но, к сожалению, мне было поручено создать синтаксический анализатор (parser + lexer, чья функция - принимать или не принимать предложение) для выдуманного языка используя менгир. Теперь я нашел в Интернете некоторые материалы, касающиеся OCaml и Menhir:

Руководство по менгиру.

Эта веб-страница для некоторых курсов французского университета.

Краткое руководство по Менгиру на домашней странице Тосс в Sourceforge.

Пример Менгира на github от Дердона.

Книга об OCaml (с несколькими вещами об ocamllex + ocamlyacc

Случайный учебник по ocamllex от SooHyoung О.

И примеры, которые идут с исходным кодом Менгира.

(Я не могу добавить более двух гиперссылок, поэтому я не могу связать вас напрямую с некоторыми из упомянутых здесь веб-сайтов. Извините!)

Итак, как вы можете видеть, я отчаянно искал все больше и больше материала, чтобы помочь мне в создании этой программы. К сожалению, я все еще не могу понять многие концепции, и поэтому у меня много, много трудностей.

Для начала я не знаю, как правильно скомпилировать мою программу. Я использовал следующую команду:

ocamlbuild -use-menhir -menhir "menhir --external-tokens Tokens" main.native

Моя программа разделена на четыре разных файла: main.ml; lexer.mll; parser.mly; tokens.mly. main.ml - это часть, которая получает данные из файла в файловой системе, заданного в качестве аргумента.

let filename = Sys.argv.(1)

let () =
    let inBuffer = open_in filename in
    let lineBuffer = Lexing.from_channel inBuffer in
    try
        let acceptance = Parser.main Lexer.main lineBuffer in
        match acceptance with
            | true -> print_string "Accepted!\n"
            | false -> print_string "Not accepted!\n"
    with
        | Lexer.Error msg -> Printf.fprintf stderr "%s%!\n" msg
        | Parser.Error -> Printf.fprintf stderr "At offset %d: syntax error.\n%!" (Lexing.lexeme_start lineBuffer)

Второй файл - lexer.mll.

{
  open Tokens
  exception Error of string
}

rule main = parse
  | [' ' '\t']+
      { main lexbuf }
  | ['0'-'9']+ as integer
      { INT (int_of_string integer) }
  | "True"
      { BOOL true }
  | "False"
      { BOOL false }
  | '+'
      { PLUS }
  | '-'
      { MINUS }
  | '*'
      { TIMES }
  | '/'
      { DIVIDE }
  | "def"
      { DEF }
  | "int"
      { INTTYPE }
  | ['A'-'Z' 'a'-'z' '_']['0'-'9' 'A'-'Z' 'a'-'z' '_']* as s
      { ID (s) }
  | '('
      { LPAREN }
  | ')'
      { RPAREN }
  | '>'
      { LARGER }
  | '<'
      { SMALLER }
  | ">="
      { EQLARGER }
  | "<="
      { EQSMALLER }
  | "="
      { EQUAL }
  | "!="
      { NOTEQUAL }
  | '~'
      { NOT }
  | "&&"
      { AND }
  | "||"
      { OR }
  | '('
      { LPAREN }
  | ')'
      { RPAREN }
  | "writeint"
      { WRITEINT }
  | '\n'
      { EOL }
  | eof
      { EOF }
  | _
      { raise (Error (Printf.sprintf "At offset %d: unexpected character.\n" (Lexing.lexeme_start lexbuf))) }

Третий файл - parser.mly.

%start <bool> main
%%

main:
| WRITEINT INT { true }

Четвертый - tokens.mly

%token <string> ID
%token <int> INT
%token <bool> BOOL
%token EOF EOL DEF INTTYPE LPAREN RPAREN WRITEINT
%token PLUS MINUS TIMES DIVIDE
%token LARGER SMALLER EQLARGER EQSMALLER EQUAL NOTEQUAL
%token NOT AND OR

%left OR
%left AND
%nonassoc NOT
%nonassoc LARGER SMALLER EQLARGER EQSMALLER EQUAL NOTEQUAL
%left PLUS MINUS
%left TIMES DIVIDE
%nonassoc LPAREN
%nonassoc ATTRIB

%{
type token =
  | ID of (string)
  | INT
  | BOOL
  | DEF
  | INTTYPE
  | LPAREN
  | RPAREN
  | WRITEINT
  | PLUS
  | MINUS
  | TIMES
  | DIVIDE
  | LARGER
  | SMALLER
  | EQLARGER
  | EQSMALLER
  | EQUAL
  | NOTEQUAL
  | NOT
  | AND
  | OR
  | EOF
  | EOL
%}

%%

Теперь я знаю, что здесь много неиспользуемых символов, но я собираюсь использовать их в моем парсере. Независимо от того, сколько изменений я делаю в файлах, компилятор постоянно взрывается. Я перепробовал все, что мог придумать, и ничего не получалось. Что заставляет ocamlbuild взрываться во множестве ошибок несвязанных конструкторов и неопределенных начальных символов? Какую команду я должен использовать, чтобы правильно скомпилировать программу? Где я могу найти значимые материалы, чтобы узнать о Менгире?

Ответы [ 3 ]

9 голосов
/ 28 марта 2012

Более простой способ сделать это - удалить разделение Parser / Tokens.Как отметил Томас, нет необходимости в объявлении type token = ..., потому что оно автоматически создается менгиром из директив %token.

Таким образом, вы можете определить parser.mly как:

%start <bool> main

%token <string> ID
%token <int> INT
%token <bool> BOOL
%token EOF EOL DEF INTTYPE LPAREN RPAREN WRITEINT
%token PLUS MINUS TIMES DIVIDE
%token LARGER SMALLER EQLARGER EQSMALLER EQUAL NOTEQUAL
%token NOT AND OR

%left OR
%left AND
%nonassoc NOT
%nonassoc LARGER SMALLER EQLARGER EQSMALLER EQUAL NOTEQUAL
%left PLUS MINUS
%left TIMES DIVIDE
%nonassoc LPAREN
%nonassoc ATTRIB
%%

main:
| WRITEINT INT { true }

и lexer.mll как:

{
  open Parser
  exception Error of string
}

[...] (* rest of the code not shown here *)

, затем удалите tokens.mly и скомпилируйте с

ocamlbuild -use-menhir main.native

, и все это будет работать хорошо.

7 голосов
/ 28 марта 2012

Итак, во-первых, вам не нужно повторять токены в tokens.mly:

%token <string> ID
%token <int> INT
%token <bool> BOOL
%token EOF EOL DEF INTTYPE LPAREN RPAREN WRITEINT
%token PLUS MINUS TIMES DIVIDE
%token LARGER SMALLER EQLARGER EQSMALLER EQUAL NOTEQUAL
%token NOT AND OR

%left OR
%left AND
%nonassoc NOT
%nonassoc LARGER SMALLER EQLARGER EQSMALLER EQUAL NOTEQUAL
%left PLUS MINUS
%left TIMES DIVIDE
%nonassoc LPAREN
%nonassoc ATTRIB

%%

Затем, я не знаю магический вариант перехода на ocamlbuild, и я неmenhir знаю очень хорошо, но, в моем понимании, вам нужно "упаковать" все .mly в одну единицу анализатора:

menhir tokens.mly parser.mly -base parser

Затем, если вы замените любое вхождение Token byt Parser в lexer.mll, ocamlbuild -no-hygiene main.byte должно работать.Обратите внимание, что, возможно, есть умный способ сделать это.

1 голос
/ 01 марта 2013

Я столкнулся с той же проблемой, за исключением того, что, кроме того, парсеру нужны модули вне текущей директивы.Я не мог понять, как вызвать ocamlbuild, чтобы указать этот синтаксический анализатор. {Ml, mli} должен был быть собран из 3-х файлов, поэтому я просто сделал make-файл, который:

  • копирует модули.cmi из _build в текущий каталог (для удовлетворения menhir --infer)
  • вызывать menhir
  • удалить скопированные модули для удовлетворения ocamlbuild
  • , а затем вызвать ocamlbuild

Я не удовлетворен этим, поэтому меня интересует какая-нибудь лучшая альтернатива, но если вам действительно нужно завершить свой проект с минимальными усилиями, я думаю, что это путь

редактировать: На самом деле,нет необходимости копировать и удалять скомпилированные модули, просто передайте опцию menhir на втором шаге: menhir --ocamlc "ocamlc -I \" ../_ build / modules / \ "" --infer --base parser

К сожалению, это означает, что генерация синтаксического анализатора будет производиться по сравнению с предыдущей компиляцией модулей, поэтому следует ожидать ненужной (и неудачной) первой компиляции.

...