Question

Интересно, можно ли создать RegEx для следующего шаблона данных:

'152: Ашкенази A, Бенлифер A, Коренблит J, Silberstein SD.'

string = '152: Ashkenazi A, Benlifer A, Korenblit J, Silberstein SD.'

IЯ использую это регулярное выражение (используя модуль re Python) для извлечения этих имен:

re.findall(r'(\d+): (.+), (.+), (.+), (.+).', string, re.M | re.S)

Результат:

[('152', 'Ashkenazi A', 'Benlifer A', 'Korenblit J', 'Silberstein SD')]

Теперь пытаюсь с другим числом (меньше 4 или больше 4) шаблона данных имени больше не работает, потому что RegEx ожидает найти только 4 из них:

(.+), (.+), (.+), (.+).

Я не могу найти способ обобщить этот шаблон.

Greg Hewgill · Answer 1 · 24 июля 2010

Регулярное выражение, вероятно, не лучший способ решить эту проблему. Вы можете использовать split():

>>> s = '152: Ashkenazi A, Benlifer A, Korenblit J, Silberstein SD.'
>>> s.split(": ")
['152', 'Ashkenazi A, Benlifer A, Korenblit J, Silberstein SD.']
>>> s.split(": ")[1].split(", ")
['Ashkenazi A', 'Benlifer A', 'Korenblit J', 'Silberstein SD.']

Jeffrey Blake · Answer 2 · 24 июля 2010

Это должно сработать, если вы хотите, чтобы материал только после чисел:

re.findall(r'\d+: (.+)(?:, .+)*\.', input, re.M | re.S)

И если вы хотите все:

re.findall(r'(\d+): (.+)(?:, .+)*\.', input, re.M | re.S)

И если вы хотите разделить ихв список совпадений, вложенное регулярное выражение сделает это:

re.findall(r'[^,]+,|[^,]+$', re.findall(r'\d+: (.+)(?:, .+)*\.', input, re.M | re.S)[0],re.M|re.S)

Caleb Hattingh · Answer 3 · 24 июля 2010

Я могу подобраться, но может потребоваться дальнейшая обработка. Вероятно, лучше выполнить разбиение строк вручную, особенно если данные надежно отформатированы.

код

import re
string1 = '152: Ashkenazi A, Benlifer A, Korenblit J, Silberstein SD.'
string2 = '152: Ashkenazi A, Benlifer A, Korenblit J, Silberstein SD, Hattingh CJR.'
for i in [string1, string2]:
    print re.findall(r'(\d+):|(?:[.,\s?])?(.*?)(?:[.,])', i)

выход

[('152', ''), ('', 'Ashkenazi A'), ('', 'Benlifer A'), ('', 'Korenblit J'), ('', 'Silberstein SD')]
[('152', ''), ('', 'Ashkenazi A'), ('', 'Benlifer A'), ('', 'Korenblit J'), ('', 'Silberstein SD'), ('', 'Hattingh CJR')]

Редактировать: используя 2 выражения

Если вы хотите использовать два выражения регулярных выражений, это можно сделать довольно безболезненно:

import re
string1 = '152: Ashkenazi A, Benlifer A, Korenblit J, Silberstein SD.'
string2 = '152: Ashkenazi A, Benlifer A, Korenblit J, Silberstein SD, Hattingh CJR.'
for i in [string1, string2]:
    print re.findall(r'^(\d+):', i)
    print re.findall(r'(?:[:,] )(\S+ [A-Z]+)(?=[\.,])', i)

производит

['152']
['Ashkenazi A', 'Benlifer A', 'Korenblit J', 'Silberstein SD']
['152']
['Ashkenazi A', 'Benlifer A', 'Korenblit J', 'Silberstein SD', 'Hattingh CJR']

Ventus · Answer 4 · 24 июля 2010

Если вы имеете в виду, что может быть больше (или меньше) имен, вам следует попробовать что-то вроде этого: (\d+): (.+)*? Звездочка (*) означает 0 или более вхождений (. +)

Помощь по проблеме регулярных выражений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

код

выход

Редактировать: используя 2 выражения

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Помощь по проблеме регулярных выражений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

код

выход

Редактировать: используя 2 выражения

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов