Question

У меня есть эта строка

template = "Hello my name is <name>, I'm <age>."

И я хочу проверить, соответствуют ли мои строки этому шаблону, и что-нибудь может быть вместо заполнителей. Заполнители начинаются и заканчиваются скобками, как это <place holder here>. Например, эта строка будет соответствовать

string = "Hello my name is John Doe, I'm 30 years old."

Я также хочу извлечь части строки, которые заменяют заполнители. Для примера выше, я хочу получить список:

['John Doe', '30 years old']

Я могу извлечь заполнители шаблона, используя шаблон <(.*?)> для регулярных выражений, но в настоящее время я застрял на том, как извлечь фактические замены из строки. Мне нужен общий подход, и я не хочу жестко кодировать шаблон, чтобы он соответствовал полному шаблону, потому что у меня есть много шаблонов для проверки. Есть ли умный способ сделать это?

3limin4t0r · Answer 1 · 28 мая 2019

Вы можете динамически построить регулярное выражение, используя шаблон.Затем сопоставьте его с любой входной строкой.

import re

template = "Hello my name is <name>, I'm <age>."
pattern = "^" + re.escape(template) + "$"
pattern = re.sub("<[^>]+>", "(?P\g<0>.*)", pattern)
regex = re.compile(pattern, re.DOTALL)

string = "Hello my name is John Doe, I'm 30 years old."
match = regex.match(string)

match.group(0)
#=> "Hello my name is John Doe, I'm 30 years old."
match.group("name")
#=> 'John Doe'
match.group("age")
#=> '30 years old'
match.groups()
#=> ('John Doe', '30 years old')

Единственное ограничение на шаблон заключается в том, что должны использоваться допустимые имена групп регулярных выражений.

Вы можете поднять это, просто не используя именованное регулярное выражениеgroups.

# replacing
pattern = re.sub("<[^>]+>", "(?P\g<0>.*)", pattern)
# with
pattern = re.sub("<[^>]+>", "(.*)", pattern)

Объедините это с перекрестными ссылками на заполнители из шаблона, и у вас будет больше опций именования.

placeholders = re.findall("<[^>]+>", template)
placeholders = list(map(lambda match: match[1:-1], placeholders))

dict(zip(placeholders, match.groups()))
#=> {'name': 'John Doe', 'age': '30 years old'}

Emma · Answer 2 · 28 мая 2019

Если за желаемыми выводами следует точная пунктуация, упомянутая в вопросе, мы можем просто использовать выражение, похожее на:

is\s(.+?),|([0-9].+)\.

DEMO

Тест

# coding=utf8
# the above tag defines encoding for this document and is for Python 2.x compatibility

import re

regex = r"is\s(.+?),|([0-9].+)\."

test_str = "Hello my name is John Doe, I'm 30 years old."

matches = re.finditer(regex, test_str, re.MULTILINE)

for matchNum, match in enumerate(matches, start=1):

    print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group()))

    for groupNum in range(0, len(match.groups())):
        groupNum = groupNum + 1

        print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

# Note: for Python 2.7 compatibility, use ur"" to prefix the regex and u"" to prefix the test string and substitution.

RegEx для извлечения совпадений заполнителей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

DEMO

Тест

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

RegEx для извлечения совпадений заполнителей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

DEMO

Тест

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы