Python PLY не может выполнить операцию присваивания - PullRequest
2 голосов
/ 06 апреля 2019

Я пытаюсь создать интерпретатор, который принимает мой сценарий в качестве входных данных.У меня есть некоторые проблемы с написанием регулярных выражений.Один из определенных токенов рассматривает все строки как токены.

import ply.lex as lex
import ply.yacc as yacc

tokens = (
    'STAIRCASE',
    'STAIRCASE_END',
    'STAIR',
    'STAIR_END',
    'TAG',
    'COLON_SYM',
    'LINE_START_SYM',
    'NONE',
    'USER_DEFINED',
    'ARRAY',
    'IS',
)

assignments = {}

t_STAIRCASE                 = r'staircase'
t_TAG                       = r'\(([a-zA-Z0-9\ ])*\)'
t_COLON_SYM                 = r' :'
t_LINE_START_SYM            = r'-'
t_STAIRCASE_END             = 'EOSC'
t_ignore                    = ' \t\n'
t_STAIR                     = 'stair'
t_STAIR_END                 = 'EOS'
t_NONE                      = 'EOP'

Вот проблема с этим регулярным выражением

t_USER_DEFINED              = r'[a-zA-Z0-9]+'

Код продолжается

t_IS                        = 'is'

def t_error(t):
    print 'Illegal character "%s"' % t.value[0]
    t.lexer.skip(1)
lex.lex()

NONE, STAIRCASE, TAG, STAIRCASE_DESCRIPTION = range(4)
states = ['NONE', 'STAIRCASE','STAIRCASE_DESCRIPTION']
current_state = NONE

def x():
    print "Hi How you doing"

def p_staircase_def(t):
    """STAIRCASE_DEF         : STAIRCASE TAG COLON_SYM STAIRCASE_DESCRIPTION
                             """
    print t[0:]
    help(t)

def p_staircase_description(t):
    """STAIRCASE_DESCRIPTION : LINE_START_SYM DICTONARY STAIRCASE_DESCRIPTION
                             | STAIRCASE_END STAIR_DEF
                             """
    print t[0:]

def p_dictonary(t):
    """
    DICTONARY                : USER_DEFINED IS USER_DEFINED
                             """

Вот моя операция присваивания, фактически она создает словарь переменных

    temp = { t[1] : t[2] }
    print assignments.update( temp )
def p_stair_def(t):
    """STAIR_DEF             : STAIR TAG COLON_SYM STAIR_DESCRIPTION
                             """
    print t[0:]

def p_stair_description(t):
    """STAIR_DESCRIPTION     : LINE_START_SYM DICTONARY STAIR_DESCRIPTION
                             | STAIR_END STAIR_DEF
                             | STAIR_END
                             """
    print t[0:]

def p_error(t):
    print 'Syntax error at "%s"' % t.value if t else 'NULL'
    global current_state
    current_state = NONE

yacc.yacc()

file_input = open("x.staircase","r")
yacc.parse(file_input.read())

Это пример ввода, который должен быть принят моим интерпретатором "x.staircase"

staircase(XXXX XXX XXX):
- abc is 23183       # which need to {'abc' : '23183'}
- bcf is fda
- deh is szsC
EOSC
stair(XXXX XXX XXX):
- lkm is 35
- raa is 233
EOS
stair(XXXX XXX XXX):
- faa is zxhfb
- faa is 1
EOS

Ошибка Я получаю

Syntax error at "staircase"
[Finished in 0.1s]

НИЖЕ Код Работает, но входной файл не соответствует ожидаемому.

import ply.lex as lex
import ply.yacc as yacc

tokens = (
    'STAIRCASE',
    'STAIRCASE_END',
    'STAIR',
    'STAIR_END',
    'TAG',
    'COLON_SYM',
    'LINE_START_SYM',
    'NONE',
    'USER_DEFINED',
    'ARRAY',
    'IS',
)

assignments = {}

t_STAIRCASE                 = r'staircase'
t_TAG                       = r'\(([a-zA-Z0-9\ ])*\)'
t_COLON_SYM                 = r' :'
t_LINE_START_SYM            = r'-'
t_STAIRCASE_END             = 'EOSC'
t_ignore                    = ' \t\n'
t_STAIR                     = 'stair'
t_STAIR_END                 = 'EOS'
t_NONE                      = 'EOP'

##########################################
Here is the issue with this regular exprission

It worked, If I Use this
t_USER_DEFINED              = r'a'

Instead of this
#t_USER_DEFINED              = r'[a-zA-Z0-9]+'

But, when it comes to my input file it only accept one variable called 'a'
##########################################
Code continues

t_IS                        = 'is'

def t_error(t):
    print 'Illegal character "%s"' % t.value[0]
    t.lexer.skip(1)
lex.lex()

NONE, STAIRCASE, TAG, STAIRCASE_DESCRIPTION = range(4)
states = ['NONE', 'STAIRCASE','STAIRCASE_DESCRIPTION']
current_state = NONE

def x():
    print "Hi How you doing"

def p_staircase_def(t):
    """STAIRCASE_DEF         : STAIRCASE TAG COLON_SYM STAIRCASE_DESCRIPTION
                             """
    print t[0:]
    help(t)

def p_staircase_description(t):
    """STAIRCASE_DESCRIPTION : LINE_START_SYM DICTONARY STAIRCASE_DESCRIPTION
                             | STAIRCASE_END STAIR_DEF
                             """
    print t[0:]

def p_dictonary(t):
    """
    DICTONARY                : USER_DEFINED IS USER_DEFINED
                             """

HERE is my assignment operation, actually it create a dictionary of variables

    temp = { t[1] : t[2] }
    print assignments.update( temp )

def p_stair_def(t):
    """STAIR_DEF             : STAIR TAG COLON_SYM STAIR_DESCRIPTION
                             """
    print t[0:]

def p_stair_description(t):
    """STAIR_DESCRIPTION     : LINE_START_SYM DICTONARY STAIR_DESCRIPTION
                             | STAIR_END STAIR_DEF
                             | STAIR_END
                             """
    print t[0:]

def p_error(t):
    print 'Syntax error at "%s"' % t.value if t else 'NULL'
    global current_state
    current_state = NONE

yacc.yacc()

file_input = open("x.staircase","r")
yacc.parse(file_input.read())

Ниже приведен пример работы ввода ("x.staircase"),Но, как вы можете видеть, все USER_DEFINED всегда

staircase(XXXX XXX XXX):
- a is a       # which need to {'abc' : '23183'}
- a is a
- a is a
EOSC
stair(XXXX XXX XXX):
- a is a
- a is a
EOS
stair(XXXX XXX XXX):
- a is a
- a is a 1
EOS

1 Ответ

1 голос
/ 06 апреля 2019

Пожалуйста, перечитайте описание того, как лексер Ply распознает токены в руководстве Ply . Обратите особое внимание на правила оформления заказа; Так как переменные шаблона сортируются от самого длинного к короткому, шаблон t_USER_DEFINED пробуется перед любым шаблоном ключевых слов (например, staircase), поэтому ни одно из ключевых слов не будет распознано. (Вот почему сокращение t_USER_DEFINED до одного символа меняет лексическое поведение.)

Есть хороший признак того, что это проблема, а не создание назначения: сообщение об ошибке выдается на токене staircase задолго до того, как назначение будет найдено. Вы бы получили другую подсказку, напечатав t.type, а также t.value в своей функции p_error. (Или, конечно, проверяя токенизатор, прежде чем пытаться что-то анализировать.)

Если вы прочитаете до конца раздел руководства по Ply, который я связал, вы найдете предложение о том, как обрабатывать токены ключевых слов, используя функцию сканера и вспомогательный словарь ключевых слов. Я настоятельно рекомендую вам использовать это как свою модель.

Также обратите внимание, что перед двоеточием должен стоять символ пробела:

t_COLON_SYM                 = r' :'

Но ваш вводный пример не имеет пробелов перед двоеточиями.

...