Question

Я хотел бы создать (PCRE) регулярное выражение, чтобы соответствовать всем обычно используемым нумерованным спискам, и я хотел бы поделиться своими мыслями и собрать информацию о том, как это сделать.

У меня естьопределил «списки» как набор канонических англосаксонских соглашений, то есть

Числа

1 2 3
1. 2. 3.
1) 2) 3)
(1) (2) (3)
1.1 1.2 1.2.1
1.1. 1.2. 1.3.
1.1) 1.2) 1.3)
(1.1) (1.2) (1.3)

Буквы

a b c
a. b. c.
a) b) c)
(a) (b) (c) 
A B C
A. B. C. 
A) B) C)
(A) (B) (C)

Римские цифры

i ii iii
i. ii. iii.
i) ii) iii)
(i) (ii) (iii)
I II III
i. ii. iii.
i) ii) iii)
(i) (ii) (iii)

Я хотел бы знать, насколько сильный набор списков, и есть ли другие соглашения о нумерации, которые должны быть там, и если любое из них должно быть удалено.

Вот регулярное выражениеЯ создал, чтобы решить эту проблему (в Python ):

numex = r'(?:\d{1,3}'\   # 1, 2, 3
    '(?:\.\d{1,3}){0,4}'\ # 1.1, 1.1.1.1
    '|[A-Z]{1,2}'\        # A. B. C.
    '|[ivxcl]{1,6}'       # i, iii, ...

rex = re.compile(r'(\(?%s\)|%s\.?)' % numex, re.I) # re.U?

rex.match("123. Some paragraph")

Я хотел бы знать, насколько адекватно это регулярное выражение для этой проблемы, и если есть другие альтернативы (regex или иным образом) решения.

Кстати, для моего конкретного случая использования я бы не ожидал, что номера списков превышают 25-50.

Спасибо за чтение.

Brian

Brian M. Hunt · Answer 1 · 27 июня 2010

Вот решение Wikified:

 numex = r"""^(?:
      \d{1,3}                 # 1, 2, 3
          (?:\.\d{1,3}){0,4}  # 1.1, 1.1.1.1
    | [B-H] | [J-Z]         # A, B - Z caps at 26.
    | [AI](?!\s)            # Note: "A" and "I" can properly start non-lists
    | [a-z]                 # a - z
    | [ivxcl]{1,6}          # Roman ii, etc
    | [IVXCL]{1,6}          # Roman IV, etc.
    )
    """

 rex = re.compile(r'^\s*(\(?%s\)|%s\.?)\s+(.*)'
   % (numex, numex), re.X)

Дополнения, изменения и предложения приветствуются.

Tim Pietzcker · Answer 2 · 27 июня 2010

Я бы изменил, по крайней мере, одну вещь, и это добавило бы якоря границ слова вокруг вашего регулярного выражения, иначе это будет соответствовать каждой отдельной букве в любом тексте:

rex = re.compile(r'(\(?\b%s\)|\b%s\b\.?)' % (numex, numes), re.I|re.M)

Это немного помогает, но, конечно, любое одно- или двухбуквенное слово все равно будет совпадать.

Возможно, вы захотите закрепить поиск в начале строки; после того, как все эти символы должны быть первыми в строке (кроме, возможно, пробелов). Отрицательный lookbehind не будет писать слова в Python, потому что Python не поддерживает lookbehind переменной длины, так что вы можете добавить это вне соответствующих скобок:

rex = re.compile(r'^\s*(\(?%s\)|%s\b\.?)' % (numex, numex), re.I|re.M)

Конечно, теперь вы должны смотреть на group(1) объекта сопоставления, чтобы получить только фактическое совпадение, а не начальный пробел.

Вы по-прежнему будете слишком много совпадать (например, предложения, начинающиеся с I thought so или It was a dark and stormy night, но ваши правила позволяют это, и я думаю, что вы это знаете.

Регулярное выражение для сопоставления различных типов нумерованных списков

Числа

Буквы

Римские цифры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Регулярное выражение для сопоставления различных типов нумерованных списков

Числа

Буквы

Римские цифры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы