Question

У меня есть простая задача, которую мне нужно выполнить в Python: преобразовать строку во все строчные буквы и удалить все не-ascii не-буквенные символы

Например:

"This is a Test" -> "thisisatest"
"A235th@#$&( er Ra{}|?>ndom" -> "atherrandom"

У меня есть простая функция для этого:

import string
import sys

def strip_string_to_lowercase(s):
    tmpStr = s.lower().strip()
    retStrList = []
    for x in tmpStr:
        if x in string.ascii_lowercase:
            retStrList.append(x)

    return ''.join(retStrList)

Но я не могу не думать, что есть более эффективный или более элегантный способ.

Спасибо!

Edit:

Спасибо всем, кто ответил. Я выучил, а в некоторых случаях переучился, много Python.

Brian · Answer 1 · 12 марта 2009

Другое решение (не то, что питонское, но очень быстрое) - это использовать string.translate, хотя учтите, что это не будет работать для юникода. Стоит также отметить, что вы можете ускорить код Даны , переместив символы в набор (который ищет по хешу, а не выполняя линейный поиск каждый раз). Вот время, которое я получаю для различных решений:

import string, re, timeit

# Precomputed values (for str_join_set and translate)

letter_set = frozenset(string.ascii_lowercase + string.ascii_uppercase)
tab = string.maketrans(string.ascii_lowercase + string.ascii_uppercase,
                       string.ascii_lowercase * 2)
deletions = ''.join(ch for ch in map(chr,range(256)) if ch not in letter_set)

s="A235th@#$&( er Ra{}|?>ndom"

# From unwind's filter approach
def test_filter(s):
    return filter(lambda x: x in string.ascii_lowercase, s.lower())

# using set instead (and contains)
def test_filter_set(s):
    return filter(letter_set.__contains__, s).lower()

# Tomalak's solution
def test_regex(s):
    return re.sub('[^a-z]', '', s.lower())

# Dana's
def test_str_join(s):
    return ''.join(c for c in s.lower() if c in string.ascii_lowercase)

# Modified to use a set.
def test_str_join_set(s):
    return ''.join(c for c in s.lower() if c in letter_set)

# Translate approach.
def test_translate(s):
    return string.translate(s, tab, deletions)


for test in sorted(globals()):
    if test.startswith("test_"):
        assert globals()[test](s)=='atherrandom'
        print "%30s : %s" % (test, timeit.Timer("f(s)", 
              "from __main__ import %s as f, s" % test).timeit(200000))

Это дает мне:

               test_filter : 2.57138351271
           test_filter_set : 0.981806765698
                test_regex : 3.10069885233
             test_str_join : 2.87172979743
         test_str_join_set : 2.43197956381
            test_translate : 0.335367566218

[Редактировать] Обновлен также с фильтрами решений. (Обратите внимание, что использование set.__contains__ имеет большое значение, поскольку позволяет избежать дополнительного вызова функции для лямбды.

A. Coady · Answer 2 · 12 марта 2009

>>> filter(str.isalpha, "This is a Test").lower()
'thisisatest'
>>> filter(str.isalpha, "A235th@#$&( er Ra{}|?>ndom").lower()
'atherrandom'

Dana · Answer 3 · 12 марта 2009

Не особенно эффективен во время выполнения, но, безусловно, приятнее на плохих, усталых глазах кодера:

def strip_string_and_lowercase(s):
    return ''.join(c for c in s.lower() if c in string.ascii_lowercase)

Tomalak · Answer 4 · 12 марта 2009

Я бы:

строчная строка
заменить все [^a-z] на ""

Вот так:

def strip_string_to_lowercase():
  nonascii = re.compile('[^a-z]')
  return lambda s: nonascii.sub('', s.lower().strip())

РЕДАКТИРОВАТЬ: Оказывается, что оригинальная версия (ниже) очень медленно, хотя некоторую производительность можно получить, преобразовав его в замыкание (выше).

def strip_string_to_lowercase(s):
  return re.sub('[^a-z]', '', s.lower().strip())

Мои измерения производительности с 100 000 итераций против строки

"A235th@#$&( er Ra{}|?>ndom"

показал, что:

f_re_0 took 2672.000 ms (это оригинальная версия этого ответа)
f_re_1 took 2109.000 ms (это версия закрытия, показанная выше)
f_re_2 took 2031.000 ms (закрытая версия, без резервирования strip())
f_fl_1 took 1953.000 ms ( откат filter / lambda версия )
f_fl_2 took 1485.000 ms ( Coady's filter версия )
f_jn_1 took 1860.000 ms ( Дана join версия )

Ради теста я не print результаты.

jfs · Answer 5 · 12 марта 2009

Python 2.x `translate` метод

Преобразование в нижний регистр и фильтрация не-ascii не-буквенных символов:

from string import ascii_letters, ascii_lowercase, maketrans

table = maketrans(ascii_letters, ascii_lowercase*2)
deletechars = ''.join(set(maketrans('','')) - set(ascii_letters))

print "A235th@#$&( er Ra{}|?>ndom".translate(table, deletechars)
# -> 'atherrandom'

Python 3 `translate` метод

Фильтр non-ascii:

ascii_bytes = "A235th@#$&(٠٫٢٥ er Ra{}|?>ndom".encode('ascii', 'ignore')

Используйте bytes.translate() для преобразования в нижний регистр и удаления не альфа-байтов:

from string import ascii_letters, ascii_lowercase

alpha, lower = [s.encode('ascii') for s in [ascii_letters, ascii_lowercase]]
table = bytes.maketrans(alpha, lower*2)           # convert to lowercase
deletebytes = bytes(set(range(256)) - set(alpha)) # delete nonalpha

print(ascii_bytes.translate(table, deletebytes))
# -> b'atherrandom'

unwind · Answer 6 · 12 марта 2009

Похоже на @ Dana's, но я думаю, что это похоже на работу по фильтрации, и это должно быть видно в коде. Также без необходимости явно вызывать join():

def strip_string_to_lowercase(s):
  return filter(lambda x: x in string.ascii_lowercase, s.lower())

grieve · Answer 7 · 12 марта 2009

Я добавил фильтрующие решения в код Брайана:

import string, re, timeit

# Precomputed values (for str_join_set and translate)

letter_set = frozenset(string.ascii_lowercase + string.ascii_uppercase)
tab = string.maketrans(string.ascii_lowercase + string.ascii_uppercase,
                       string.ascii_lowercase * 2)
deletions = ''.join(ch for ch in map(chr,range(256)) if ch not in letter_set)

s="A235th@#$&( er Ra{}|?>ndom"

def test_original(s):
    tmpStr = s.lower().strip()
    retStrList = []
    for x in tmpStr:
        if x in string.ascii_lowercase:
            retStrList.append(x)

    return ''.join(retStrList)


def test_regex(s):
    return re.sub('[^a-z]', '', s.lower())

def test_regex_closure(s):
  nonascii = re.compile('[^a-z]')
  def replacer(s):
    return nonascii.sub('', s.lower().strip())
  return replacer(s)


def test_str_join(s):
    return ''.join(c for c in s.lower() if c in string.ascii_lowercase)

def test_str_join_set(s):
    return ''.join(c for c in s.lower() if c in letter_set)

def test_filter_set(s):
    return filter(letter_set.__contains__, s.lower())

def test_filter_isalpha(s):
    return filter(str.isalpha, s).lower()

def test_filter_lambda(s):
    return filter(lambda x: x in string.ascii_lowercase, s.lower())

def test_translate(s):
    return string.translate(s, tab, deletions)

for test in sorted(globals()):
    if test.startswith("test_"):
        print "%30s : %s" % (test, timeit.Timer("f(s)", 
              "from __main__ import %s as f, s" % test).timeit(200000))

Это дает мне:

       test_filter_isalpha : 1.31981746283
        test_filter_lambda : 2.23935583992
           test_filter_set : 0.76511679557
             test_original : 2.13079176264
                test_regex : 2.44295629752
        test_regex_closure : 2.65205913042
             test_str_join : 2.25571266739
         test_str_join_set : 1.75565888961
            test_translate : 0.269259640541

Похоже, что isalpha использует алгоритм, подобный, по крайней мере, с точки зрения O (), алгоритму набора.

Edit: Добавил набор фильтров и переименовал функции фильтров, чтобы быть немного более понятным.

Ber · Answer 8 · 12 марта 2009

Это типичное применение списка списка:

import string
s = "O235th@#$&( er Ra{}|?<ndom"
print ''.join(c for c in s.lower() if c in string.ascii_lowercase)

Он не будет отфильтровывать "<" (html entity), как в вашем примере, но я предполагаю, что это было случайное сокращение и проблема прошлого. </p>

SilentGhost · Answer 9 · 12 марта 2009

>>> import string
>>> a = "O235th@#$&( er Ra{}|?&lt;ndom"
>>> ''.join(i for i in a.lower() if i in string.ascii_lowercase)
'otheraltndom'

делает то же самое, что и вы.

tzot · Answer 10 · 22 октября 2011

Python 2.x:

import string
valid_chars= string.ascii_lowercase + string.ascii_uppercase

def only_lower_ascii_alpha(text):
    return filter(valid_chars.__contains__, text).lower()

Работает с аргументами str или unicode.

>>> only_lower_ascii_alpha("Hello there 123456!")
'hellothere'
>>> only_lower_ascii_alpha(u"435 café")
u'caf'

Какой самый эффективный способ в Python преобразовать строку во все строчные буквы, удаляя все не-ascii буквенные символы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python 2.x `translate` метод

Python 3 `translate` метод

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python 2.x:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой самый эффективный способ в Python преобразовать строку во все строчные буквы, удаляя все не-ascii буквенные символы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python 2.x translate метод

Python 3 translate метод

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python 2.x:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов

Python 2.x `translate` метод

Python 3 `translate` метод