Разбить строку на заглавные буквы - PullRequest
72 голосов
/ 17 февраля 2010

Каков pythonic способ разбить строку перед появлением данного набора символов?

Например, я хочу разделить 'TheLongAndWindingRoad' при любом появлении заглавной буквы (возможно, кроме первой) и получить ['The', 'Long', 'And', 'Winding', 'Road'].

Редактировать: он должен также разделять отдельные случаи, т.е. от 'ABC' Я хотел бы получить ['A', 'B', 'C'].

Ответы [ 14 ]

111 голосов
/ 17 февраля 2010

К сожалению, невозможно разбить на совпадение нулевой ширины в Python. Но вы можете использовать re.findall вместо:

>>> import re
>>> re.findall('[A-Z][^A-Z]*', 'TheLongAndWindingRoad')
['The', 'Long', 'And', 'Winding', 'Road']
>>> re.findall('[A-Z][^A-Z]*', 'ABC')
['A', 'B', 'C']
22 голосов
/ 17 февраля 2010

Вот альтернативное решение регулярных выражений.Проблема может быть перефразирована как «как вставить пробел перед каждой заглавной буквой перед выполнением разбиения»:

>>> s = "TheLongAndWindingRoad ABC A123B45"
>>> re.sub( r"([A-Z])", r" \1", s).split()
['The', 'Long', 'And', 'Winding', 'Road', 'A', 'B', 'C', 'A123', 'B45']

Преимущество этого заключается в сохранении всех непробельных символов, что делает большинство других решений.нет.

17 голосов
/ 17 февраля 2010
>>> import re
>>> re.findall('[A-Z][a-z]*', 'TheLongAndWindingRoad')
['The', 'Long', 'And', 'Winding', 'Road']

>>> re.findall('[A-Z][a-z]*', 'SplitAString')
['Split', 'A', 'String']

>>> re.findall('[A-Z][a-z]*', 'ABC')
['A', 'B', 'C']

Если вы хотите разделить "It'sATest" на ["It's", 'A', 'Test'], измените рексег на "[A-Z][a-z']*"

6 голосов
/ 17 февраля 2010

Вариант решения @ChristopheD

s = 'TheLongAndWindingRoad'

pos = [i for i,e in enumerate(s+'A') if e.isupper()]
parts = [s[pos[j]:pos[j+1]] for j in xrange(len(pos)-1)]

print parts
4 голосов
/ 17 февраля 2010
import re
filter(None, re.split("([A-Z][^A-Z]*)", "TheLongAndWindingRoad"))

или

[s for s in re.split("([A-Z][^A-Z]*)", "TheLongAndWindingRoad") if s]
3 голосов
/ 07 июля 2014
src = 'TheLongAndWindingRoad'
glue = ' '

result = ''.join(glue + x if x.isupper() else x for x in src).strip(glue).split(glue)
2 голосов
/ 17 февраля 2010

Альтернативное решение (если вам не нравятся явные регулярные выражения):

s = 'TheLongAndWindingRoad'

pos = [i for i,e in enumerate(s) if e.isupper()]

parts = []
for j in xrange(len(pos)):
    try:
        parts.append(s[pos[j]:pos[j+1]])
    except IndexError:
        parts.append(s[pos[j]:])

print parts
1 голос
/ 24 августа 2017

Это возможно с помощью инструмента more_itertools.split_before.

import more_itertools as mit


iterable = "TheLongAndWindingRoad"
[ "".join(i) for i in mit.split_before(iterable, pred=lambda s: s.isupper())]
# ['The', 'Long', 'And', 'Winding', 'Road']

Он также должен разделять отдельные случаи, т. Е. От 'ABC' Я хотел бы получить ['A', 'B', 'C'].

iterable = "ABC"
[ "".join(i) for i in mit.split_before(iterable, pred=lambda s: s.isupper())]
# ['A', 'B', 'C']

more_itertools - сторонний пакет с более чем 60 полезными инструментами, включая реализации всех оригинальных рецептов itertools , что исключает их ручную реализацию.

1 голос
/ 02 ноября 2016

Другой без регулярных выражений и возможность сохранять смежные заглавные буквы, если хотите

def split_on_uppercase(s, keep_contiguous=False):
    """

    Args:
        s (str): string
        keep_contiguous (bool): flag to indicate we want to 
                                keep contiguous uppercase chars together

    Returns:

    """

    string_length = len(s)
    is_lower_around = (lambda: s[i-1].islower() or 
                       string_length > (i + 1) and s[i + 1].islower())

    start = 0
    parts = []
    for i in range(1, string_length):
        if s[i].isupper() and (not keep_contiguous or is_lower_around()):
            parts.append(s[start: i])
            start = i
    parts.append(s[start:])

    return parts

>>> split_on_uppercase('theLongWindingRoad')
['the', 'Long', 'Winding', 'Road']
>>> split_on_uppercase('TheLongWindingRoad')
['The', 'Long', 'Winding', 'Road']
>>> split_on_uppercase('TheLongWINDINGRoadT', True)
['The', 'Long', 'WINDING', 'Road', 'T']
>>> split_on_uppercase('ABC')
['A', 'B', 'C']
>>> split_on_uppercase('ABCD', True)
['ABCD']
>>> split_on_uppercase('')
['']
>>> split_on_uppercase('hello world')
['hello world']
0 голосов
/ 19 апреля 2019

Используйте взгляд:

В Python 3.7 вы можете сделать это:

re.split('(?=[A-Z])', 'theLongAndWindingRoad')

И это дает:

['the', 'Long', 'And', 'Winding', 'Road']
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...