В качестве обновления я переписал пример @Brian в Python 3 и внес в него изменения, чтобы переместить шаг компиляции регулярного выражения в функцию. Я думал здесь о том, чтобы рассчитывать каждый шаг, необходимый для работы функции. Возможно, вы используете распределенные вычисления и не можете разделить объект регулярного выражения между вашими работниками, и вам нужно иметь шаг re.compile
для каждого работника. Кроме того, мне было интересно узнать время двух разных реализаций макетранса для Python 3
.
table = str.maketrans({key: None for key in string.punctuation})
против
table = str.maketrans('', '', string.punctuation)
Плюс я добавил еще один метод для использования set, в котором я использую функцию пересечения, чтобы уменьшить количество итераций.
Это полный код:
import re, string, timeit
s = "string. With. Punctuation"
def test_set(s):
exclude = set(string.punctuation)
return ''.join(ch for ch in s if ch not in exclude)
def test_set2(s):
_punctuation = set(string.punctuation)
for punct in set(s).intersection(_punctuation):
s = s.replace(punct, ' ')
return ' '.join(s.split())
def test_re(s): # From Vinko's solution, with fix.
regex = re.compile('[%s]' % re.escape(string.punctuation))
return regex.sub('', s)
def test_trans(s):
table = str.maketrans({key: None for key in string.punctuation})
return s.translate(table)
def test_trans2(s):
table = str.maketrans('', '', string.punctuation)
return(s.translate(table))
def test_repl(s): # From S.Lott's solution
for c in string.punctuation:
s=s.replace(c,"")
return s
print("sets :",timeit.Timer('f(s)', 'from __main__ import s,test_set as f').timeit(1000000))
print("sets2 :",timeit.Timer('f(s)', 'from __main__ import s,test_set2 as f').timeit(1000000))
print("regex :",timeit.Timer('f(s)', 'from __main__ import s,test_re as f').timeit(1000000))
print("translate :",timeit.Timer('f(s)', 'from __main__ import s,test_trans as f').timeit(1000000))
print("translate2 :",timeit.Timer('f(s)', 'from __main__ import s,test_trans2 as f').timeit(1000000))
print("replace :",timeit.Timer('f(s)', 'from __main__ import s,test_repl as f').timeit(1000000))
Это мои результаты:
sets : 3.1830138750374317
sets2 : 2.189873124472797
regex : 7.142953420989215
translate : 4.243278483860195
translate2 : 2.427158243022859
replace : 4.579746678471565