Может быть проще с tokenize - адаптируя пример в документах,
import cStringIO
import tokenize
class Lookahead(object):
def __init__(self, s):
self._t = tokenize.generate_tokens(cStringIO.StringIO(s).readline)
self.lookahead = next(self._t, None)
def __iter__(self):
return self
def next(self):
result = self.lookahead
if result is None: raise StopIteration
self.lookahead = next(self._t, None)
return result
def doit(s):
toks = Lookahead(s)
result = []
for toktype, tokvalue, _, _, _ in toks:
if toktype == tokenize.STRING:
pk = toks.lookahead
if pk is not None and pk[0] == tokenize.OP and pk[1] == '%':
result.extend([
(tokenize.NAME, 'functioncall'),
(tokenize.OP, '('),
(tokenize.STRING, repr(tokvalue)),
(tokenize.OP, ')')
])
continue
result.append((toktype, tokvalue))
return tokenize.untokenize(result)
print doit('"some literal string %" % SOMETHING')
Это печатает functioncall ('"some literal string %"')%SOMETHING
.Интервал довольно своеобразен (требуется гораздо больше усилий, чтобы получить правильный интервал - но это еще хуже для восстановления источников из модифицированного AST), но это просто хорошо, если все, что вы собираетесь сделать, это импортировать / запуститьрезультирующий код (не очень хорошо, если вы хотите получить хорошо читаемый и редактируемый код - но это достаточно большая проблема, поэтому я бы предложил отдельный Q; -).