Python 2.7: Как выполнить grep / split строки, содержащие шаблон - PullRequest
1 голос
/ 04 июня 2019

У меня есть файл журнала как

INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>

Теперь этот файл нельзя правильно разделить на \n, т. Е. Если я хочу прочитать отдельные сообщения, я могу разделить содержимое файла на \n и повторяем.

Итак, мне нужно разбить на некоторый шаблон, такой как

[INFO|DEBUG|WARNING|ERROR]<timestamp>

Как я могу сформировать регулярное выражение для достижения этой цели?Кроме того, мне все еще понадобится информация об уровне журнала и времени после разделения.Так что я думаю, мне нужно создать некоторую форму grep

Как я могу добиться этого в Python?

Я попробовал этот шаблон

(INFO|DEBUG|WARNING|ERROR) \d{2}\/\d{2}\d{4} \d{2}:\d{2}:\d{2}\s[A|P]M

но я не получаю никаких совпадений

Ответы [ 4 ]

2 голосов
/ 04 июня 2019

Я бы сделал это:

  • Найти: (?<!\n)(?=INFO|DEBUG|WARNING|ERROR)
  • Заменить: \n

Это вставит разрыв строки до INFO|DEBUG|WARNING|ERROR, если ему не предшествует разрыв строки.

Демо

1 голос
/ 04 июня 2019

Вы можете использовать подстановку, чтобы просто вставить новую строку перед каждым вхождением шаблона, а затем разделить на "\ n"

data = """INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>"""

import re
pattern   = r"(?<!^)(?<!\n)(WARNING|DEBUG|ERROR|INFO) ([0-9\/:]* ){2}(AM|PM) "
splitData = re.sub(pattern,r"\n\g<0>",data).split("\n")
for line in splitData:
    print(line)

INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>
ERROR 01/23/2019 01:49:48 PM <some message>

Примечание. Я упростил шаблон, предполагая, что отметка времени всегда будет содержать 2 числовые части, разделенные пробелом, за которым следуют AM или PM. Вы можете настроить выражение, чтобы быть более конкретным. Или вы можете просто пропустить часть отметки времени и использовать только ключевые слова, но тогда вы должны быть уверены, что сообщения не содержат ни одного из этих ключевых слов

1 голос
/ 04 июня 2019

Вот предположения для регулярного выражения:

  • сообщение должно начинаться с уровня, пробела, даты, пробела и времени
  • текст сообщения начинается после пробела и продолжается до начала следующего сообщения или до конца строки
  • сообщение должно быть разбито на 3 части: уровень, дату и текст. Пробелы и необязательное окончание \n не включены в части.

Регулярное выражение:

trx = r'(INFO|DEBUG|WARNING|ERROR) (\d{2}\/\d{2}/\d{4} \d{2}:\d{2}:\d{2}\s[AP]M) (.*?)\n?(?=(?:INFO|DEBUG|WARNING|ERROR)|$)'

Демо-версия:

import re

t = '''INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>'''

msg = re.compile(r'(INFO|DEBUG|WARNING|ERROR) (\d{2}\/\d{2}/\d{4} \d{2}:\d{2}:\d{2}\s[AP]M) '
                 '(.*?)\n?(?=(?:INFO|DEBUG|WARNING|ERROR)|$)', re.DOTALL)

pprint(msg.findall(t))

дает:

[('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('DEBUG', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('INFO', '01/23/2019 01:49:48 PM', '<some message>'),
 ('WARNING', '01/23/2019 01:49:48 PM', '<some message>'),
 ('ERROR', '01/23/2019 01:49:48 PM', '<some message>')]
0 голосов
/ 04 июня 2019

Мы можем просто использовать выражение с несколькими группами захвата и собирать то, что мы хотим, возможно, с выражением, похожим на:

(INFO|DEBUG|WARNING|ERROR)\s+?(\d{2}\/\d{2}\/\d{4})\s+?(\d{2}:\d{2}:\d{2})\s+?([A-Z]{2})\s+?(<(.+?)>)

Тест

# coding=utf8
# the above tag defines encoding for this document and is for Python 2.x compatibility

import re

regex = r"(INFO|DEBUG|WARNING|ERROR)\s+?(\d{2}\/\d{2}\/\d{4})\s+?(\d{2}:\d{2}:\d{2})\s+?([A-Z]{2})\s+?(<.+?>)"

test_str = ("INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>\n"
    "INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>\n"
    "INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>\n"
    "WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>")

matches = re.finditer(regex, test_str, re.MULTILINE)

for matchNum, match in enumerate(matches, start=1):

    print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group()))

    for groupNum in range(0, len(match.groups())):
        groupNum = groupNum + 1

        print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

# Note: for Python 2.7 compatibility, use ur"" to prefix the regex and u"" to prefix the test string and substitution.

Демо

Схема RegEx

jex.im визуализирует регулярные выражения:

enter image description here

Демо

Этот фрагмент показывает, как работают группы захвата:

const regex = /(INFO|DEBUG|WARNING|ERROR)\s+?(\d{2}\/\d{2}\/\d{4})\s+?(\d{2}:\d{2}:\d{2})\s+?([A-Z]{2})\s+?(<.+?>)/gm;
const str = `INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>DEBUG 01/23/2019 01:49:48 PM <some message>
INFO 01/23/2019 01:49:48 PM <some message>INFO 01/23/2019 01:49:48 PM <some message>
WARNING 01/23/2019 01:49:48 PM <some message>ERROR 01/23/2019 01:49:48 PM <some message>`;
let m;

while ((m = regex.exec(str)) !== null) {
    // This is necessary to avoid infinite loops with zero-width matches
    if (m.index === regex.lastIndex) {
        regex.lastIndex++;
    }
    
    // The result can be accessed through the `m`-variable.
    m.forEach((match, groupIndex) => {
        console.log(`Found match, group ${groupIndex}: ${match}`);
    });
}
...