Question

У меня есть файл журнала как

INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>

Теперь этот файл нельзя правильно разделить на \n, т. Е. Если я хочу прочитать отдельные сообщения, я могу разделить содержимое файла на \n и повторяем.

Итак, мне нужно разбить на некоторый шаблон, такой как

[INFO|DEBUG|WARNING|ERROR]<timestamp>

Как я могу сформировать регулярное выражение для достижения этой цели?Кроме того, мне все еще понадобится информация об уровне журнала и времени после разделения.Так что я думаю, мне нужно создать некоторую форму grep

Как я могу добиться этого в Python?

Я попробовал этот шаблон

(INFO|DEBUG|WARNING|ERROR) \d{2}\/\d{2}\d{4} \d{2}:\d{2}:\d{2}\s[A|P]M

но я не получаю никаких совпадений

Toto · Answer 1 · 04 июня 2019

Я бы сделал это:

Найти: (?<!\n)(?=INFO|DEBUG|WARNING|ERROR)
Заменить: \n

Это вставит разрыв строки до INFO|DEBUG|WARNING|ERROR, если ему не предшествует разрыв строки.

Демо

Alain T. · Answer 2 · 04 июня 2019

Вы можете использовать подстановку, чтобы просто вставить новую строку перед каждым вхождением шаблона, а затем разделить на "\ n"

data = """INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>"""

import re
pattern   = r"(?<!^)(?<!\n)(WARNING|DEBUG|ERROR|INFO) ([0-9\/:]* ){2}(AM|PM) "
splitData = re.sub(pattern,r"\n\g<0>",data).split("\n")
for line in splitData:
    print(line)

INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>
ERROR 01/23/2019 01:49:48 PM <some message>

Примечание. Я упростил шаблон, предполагая, что отметка времени всегда будет содержать 2 числовые части, разделенные пробелом, за которым следуют AM или PM. Вы можете настроить выражение, чтобы быть более конкретным. Или вы можете просто пропустить часть отметки времени и использовать только ключевые слова, но тогда вы должны быть уверены, что сообщения не содержат ни одного из этих ключевых слов

Serge Ballesta · Answer 3 · 04 июня 2019

Вот предположения для регулярного выражения:

сообщение должно начинаться с уровня, пробела, даты, пробела и времени
текст сообщения начинается после пробела и продолжается до начала следующего сообщения или до конца строки
сообщение должно быть разбито на 3 части: уровень, дату и текст. Пробелы и необязательное окончание \n не включены в части.

Регулярное выражение:

trx = r'(INFO|DEBUG|WARNING|ERROR) (\d{2}\/\d{2}/\d{4} \d{2}:\d{2}:\d{2}\s[AP]M) (.*?)\n?(?=(?:INFO|DEBUG|WARNING|ERROR)|$)'

Демо-версия:

import re

t = '''INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>'''

msg = re.compile(r'(INFO|DEBUG|WARNING|ERROR) (\d{2}\/\d{2}/\d{4} \d{2}:\d{2}:\d{2}\s[AP]M) '
                 '(.*?)\n?(?=(?:INFO|DEBUG|WARNING|ERROR)|$)', re.DOTALL)

pprint(msg.findall(t))

дает:

[('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('DEBUG', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('WARNING', '01/23/2019 01:49:48 PM', '<some message>'),
 ('ERROR', '01/23/2019 01:49:48 PM', '<some message>')]

Emma · Answer 4 · 04 июня 2019

Мы можем просто использовать выражение с несколькими группами захвата и собирать то, что мы хотим, возможно, с выражением, похожим на:

(INFO|DEBUG|WARNING|ERROR)\s+?(\d{2}\/\d{2}\/\d{4})\s+?(\d{2}:\d{2}:\d{2})\s+?([A-Z]{2})\s+?(<(.+?)>)

Тест

# coding=utf8
# the above tag defines encoding for this document and is for Python 2.x compatibility

import re

regex = r"(INFO|DEBUG|WARNING|ERROR)\s+?(\d{2}\/\d{2}\/\d{4})\s+?(\d{2}:\d{2}:\d{2})\s+?([A-Z]{2})\s+?(<.+?>)"

test_str = ("INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>\n"
    "INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>\n"
    "INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>\n"
    "WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>")

matches = re.finditer(regex, test_str, re.MULTILINE)

for matchNum, match in enumerate(matches, start=1):

    print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group()))

    for groupNum in range(0, len(match.groups())):
        groupNum = groupNum + 1

        print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

# Note: for Python 2.7 compatibility, use ur"" to prefix the regex and u"" to prefix the test string and substitution.

Демо

Схема RegEx

jex.im визуализирует регулярные выражения:

Демо

Этот фрагмент показывает, как работают группы захвата:

const regex = /(INFO|DEBUG|WARNING|ERROR)\s+?(\d{2}\/\d{2}\/\d{4})\s+?(\d{2}:\d{2}:\d{2})\s+?([A-Z]{2})\s+?(<.+?>)/gm;
const str = `INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>`;
let m;

while ((m = regex.exec(str)) !== null) {
    // This is necessary to avoid infinite loops with zero-width matches
    if (m.index === regex.lastIndex) {
        regex.lastIndex++;
    }
    
    // The result can be accessed through the `m`-variable.
    m.forEach((match, groupIndex) => {
        console.log(`Found match, group ${groupIndex}: ${match}`);
    });
}

Python 2.7: Как выполнить grep / split строки, содержащие шаблон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Тест

Демо

Схема RegEx

Демо

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python 2.7: Как выполнить grep / split строки, содержащие шаблон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Тест

Демо

Схема RegEx

Демо

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы