Посчитайте повторяющиеся совпадения с регулярными выражениями еще раз - PullRequest
7 голосов
/ 17 февраля 2012

Как я могу получить число совпадений регулярных выражений с перекрытием , используя Python?

Я прочитал и попробовал предложения из этого , , и нескольких других вопросов, но не нашел ни одного, который бы подходил для моего сценария.Вот оно:

  • пример строки ввода: akka
  • шаблон поиска: a.*k

Правильная функция должна давать 2 в качестве количества совпадений, поскольку возможны две конечные позиции (k буквы).

Шаблон также может быть более сложным, например, a.*k.*a также должен совпадать дважды в akka (поскольку в середине два k).

Ответы [ 2 ]

3 голосов
/ 17 февраля 2012

Я думаю, что то, что вы ищете, вероятно, лучше сделать с помощью библиотеки синтаксического анализа, такой как lepl :

>>> from lepl import *
>>> parser = Literal('a') + Any()[:] + Literal('k')
>>> parser.config.no_full_first_match()
>>> list(parser.parse_all('akka'))
[['akk'], ['ak']]
>>> parser = Literal('a') + Any()[:] + Literal('k') + Any()[:] + Literal('a')
>>> list(parser.parse_all('akka'))
[['akka'], ['akka']]

Я считаю, что длина вывода из parser.parse_allэто то, что вы ищете.

Обратите внимание, что вам нужно использовать parser.config.no_full_first_match(), чтобы избежать ошибок, если ваш шаблон не соответствует всей строке.

Редактировать: на основе комментария от@ Shamanu4, я вижу, тебе нужны результаты поиска, начиная с любой позиции, ты можешь сделать это следующим образом:

>>> text = 'bboo'
>>> parser = Literal('b') + Any()[:] + Literal('o')
>>> parser.config.no_full_first_match()
>>> substrings = [text[i:] for i in range(len(text))]
>>> matches = [list(parser.parse_all(substring)) for substring in substrings]
>>> matches = filter(None, matches) # Remove empty matches
>>> matches = list(itertools.chain.from_iterable(matches)) # Flatten results
>>> matches = list(itertools.chain.from_iterable(matches)) # Flatten results (again)
>>> matches
['bboo', 'bbo', 'boo', 'bo']
2 голосов
/ 17 февраля 2012

Да, это уродливо и неоптимизировано, но, похоже, работает. Это простая попытка всех возможных , но уникальных вариантов

def myregex(pattern,text,dir=0):
    import re
    m = re.search(pattern, text)
    if m:
        yield m.group(0)
        if len(m.group('suffix')):
            for r in myregex(pattern, "%s%s%s" % (m.group('prefix'),m.group('suffix')[1:],m.group('end')),1):
                yield r
            if dir<1 :
                for r in myregex(pattern, "%s%s%s" % (m.group('prefix'),m.group('suffix')[:-1],m.group('end')),-1):
                    yield r


def myprocess(pattern, text):    
    parts = pattern.split("*")    
    for i in range(0, len(parts)-1 ):
        res=""
        for j in range(0, len(parts) ):
            if j==0:
                res+="(?P<prefix>"
            if j==i:
                res+=")(?P<suffix>"
            res+=parts[j]
            if j==i+1:
                res+=")(?P<end>"
            if j<len(parts)-1:
                if j==i:
                    res+=".*"
                else:
                    res+=".*?"
            else:
                res+=")"
        for r in myregex(res,text):
            yield r

def mycount(pattern, text):
    return set(myprocess(pattern, text))

тест:

>>> mycount('a*b*c','abc')
set(['abc'])
>>> mycount('a*k','akka')
set(['akk', 'ak'])
>>> mycount('b*o','bboo')
set(['bbo', 'bboo', 'bo', 'boo'])
>>> mycount('b*o','bb123oo')
set(['b123o', 'bb123oo', 'bb123o', 'b123oo'])
>>> mycount('b*o','ffbfbfffofoff')
set(['bfbfffofo', 'bfbfffo', 'bfffofo', 'bfffo'])
...