Question

С помощью Python regex я пытаюсь извлечь все строки после [..] и начиная с ;; персонаж. См. Пример ниже

sample_str = '''[TITLE]

[OPTIONS]
;;Options            Value
;;------------------ ------------
FLOW_UNITS           CFS
<MORE TEXT>

[PATTERNS]
;;Name           Type       Multipliers
;;-------------- ---------- -----------
;Daily pattern generated from time series '2-166:2-165 (obs)'.  Average value was 0.0485 MGD.
2-166:2-165_(obs)_Daily DAILY      1.011 1.008 1.06  0.908 1.072 0.998 0.942
<MORE TEXT>

[COORDINATES]
;;Node           X-Coord          Y-Coord         
;;-------------- ---------------- ----------------
<MORE TEXT>

[JUNCTIONS]
;;               Invert     Max.       Init.      Surcharge  Ponded    
;;Name           Elev.      Depth      Depth      Depth      Area      
;;-------------- ---------- ---------- ---------- ---------- ----------
1-1              837.85     15.25      0          0          0         
<MORE TEXT>  

[REPORT]
INPUT      YES
CONTROLS   NO
<MORE TEXT>
'''

Я хотел бы получить список типа

expected_result = [';;Options            Value\n;;------------------ ------------', ';;Name           Type       Multipliers\n;;-------------- ---------- -----------', ..]

Мне удалось получить первые строки только на re.findall(r"(?<=\]\n);;.*", sample_str). Попытка добавить еще шаблон линий путем добавления \n, как re.findall(r"(?<=\]\n);;.*\n;;.*", sample_str, re.MULTILINE), не работает, поскольку шаблон для текстов, которые я хочу, не является однородным. Я пытался использовать re.multiline для поиска всего текста до -\n, но не смог заставить его работать как re.findall(r"(?<=\]\n);;.*-$", sample_str, re.MULTILINE).

Может ли кто-нибудь помочь мне с этим!

MkWTF · Answer 1 · 08 января 2020

Вы можете использовать что-то вроде этого:

re.findall(r"^\[.*\]\n+((?:;;.*\n+)+)", sample_str, re.M)

Вот объяснение выражения

РЕДАКТИРОВАТЬ : Добавлено ограничение для запуска шаблона в начале строки. Спасибо, что заметили @Wiktor Stribiżew

Tomalak · Answer 2 · 08 января 2020

Что бы это ни стоило, это легко возможно вообще без регулярных выражений:

input_str = '''...'''

flag = False
output = []

for line in input_str.splitlines():
    if not flag and line.startswith('[') and line.endswith(']'):
        flag = True
    elif flag and line.startswith(';;'):
        output.append(line)
    else:
        flag = False

print(output)

Обратите внимание, что окончания строк будут отсутствовать, потому что .splitlines() съедает их.

Если входные данные поступили из файла, это было бы так же просто:

def parse_file(filename):
    flag = False
    with open(filename, 'r', encoding='utf8') as f:
        for line in f:
            if not flag and line.startswith('[') and line.endswith(']'):
                flag = True
            elif flag and line.startswith(';;'):
                yield line
            else:
                flag = False

Как сопоставить использование регулярного выражения для сопоставления многострочного текста с указанием c начального и конечного шаблонов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сопоставить использование регулярного выражения для сопоставления многострочного текста с указанием c начального и конечного шаблонов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы