Question

Я пытаюсь заменить любые экземпляры заглавных букв, которые повторяются дважды в строке, одним экземпляром этой буквы в нижнем регистре.Я использую следующее регулярное выражение, и оно может соответствовать повторяющимся заглавным буквам, но я не уверен, как сделать заменяемую букву строчной.

import re
s = 'start TT end'
re.sub(r'([A-Z]){2}', r"\1", s)
>>> 'start T end'

Как мне сделать"\ 1" нижний регистр?Разве я не должен использовать регулярное выражение для этого?

jensgram · Answer 1 · 10 ноября 2010

Передать функцию в качестве аргумента repl.MatchObject передается этой функции, а .group(1) дает первую заключенную в скобки подгруппу:

import re
s = 'start TT end'
callback = lambda pat: pat.group(1).lower()
re.sub(r'([A-Z]){2}', callback, s)

РЕДАКТИРОВАТЬ
И да, вы должны использовать([A-Z])\1 вместо ([A-Z]){2}, чтобы не соответствовало, например, AZ.(См. ответ @ bobince's .)

import re
s = 'start TT end'
re.sub(r'([A-Z])\1', lambda pat: pat.group(1).lower(), s) # Inline

Дает:

'start t end'

bobince · Answer 2 · 10 ноября 2010

Вы не можете изменить регистр в строке замены. Вам потребуется функция замены:

>>> def replacement(match):
...     return match.group(1).lower()
... 
>>> re.sub(r'([A-Z])\1', replacement, 'start TT end')
'start t end'

Ignacio Vazquez-Abrams · Answer 3 · 10 ноября 2010

Вы можете сделать это с помощью регулярного выражения, просто передайте функцию в качестве замены, как, например, в документации .Проблема в вашем шаблоне.

Как таковой, ваш шаблон соответствует сериям любых двух заглавных буквЯ оставлю вам фактический шаблон, но он начинается с AA|BB|CC|.

Tony Veijalainen · Answer 4 · 10 ноября 2010

ВНИМАНИЕ! У этого поста нет повторного запроса. Продолжайте со своей ответственностью!

Я не знаю, насколько возможны угловые случаи, но именно так нормальный Python выполняет мое наивное кодирование.

import string
s = 'start TT end AAA BBBBBBB'
for c in string.uppercase:
    s = s.replace(c+c,c.lower())
print s
""" Output:
start t end aA bbbB
"""

khachik · Answer 5 · 10 ноября 2010

Попробуйте это:

def tol(m):
   return m.group(0)[0].lower()

s = 'start TTT AAA end'
re.sub(r'([A-Z]){2,}', tol, s)

Обратите внимание, что это не заменяет одинарные верхние буквы. Если вы хотите сделать это, используйте r'([A-Z]){1,}'.

bgporter · Answer 6 · 10 ноября 2010

Параметр 'repl', который идентифицирует замену, может быть либо строкой (как она есть здесь), либо функцией.Это будет делать то, что вы хотите:

import re

def toLowercase(matchobj):
   return matchobj.group(1).lower()

s = 'start TT end'
re.sub(r'([A-Z]){2}', toLowercase, s)
>>> 'start t end'

Использование регулярного выражения для замены повторяющихся букв в верхнем регистре в Python одной строчной буквой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование регулярного выражения для замены повторяющихся букв в верхнем регистре в Python одной строчной буквой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы