Функции Python с поддержкой табуляции и дополнения () - PullRequest
3 голосов
/ 17 ноября 2009

Функции Python len () и padding, такие как string.ljust (), не поддерживают табуляцию, т. Е. Обрабатывают '\ t' как любой другой символ одинарной ширины и не округляют len до ближайшего кратного табуляции , Пример:

len('Bear\tnecessities\t')

равно 17 вместо 24 (то есть 4+ (8-4) +11+ (8-3))

и скажите, что я тоже хочу функцию pad_with_tabs(s) такую, что

pad_with_tabs('Bear', 15) = 'Bear\t\t'

В поисках простых реализаций - компактность и удобочитаемость, во-вторых, эффективность. Это основной, но раздражающий вопрос. @gnibbler - можете ли вы показать чисто Pythonic решение, даже если оно, скажем, в 20 раз менее эффективно?

Конечно, вы можете конвертировать туда и обратно, используя str.expandtabs (TABWIDTH), но это неуклюже. Импорт математики для получения TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) ) также кажется огромным перебором.

Я не мог справиться с чем-то более элегантным, чем следующее:

TABWIDTH = 8

def pad_with_tabs(s,maxlen):
  s_len = len(s)
  while s_len < maxlen:
    s += '\t'
    s_len += TABWIDTH - (s_len % TABWIDTH)
  return s

и поскольку строки Python являются неизменяемыми, и если мы не хотим обезопасить нашу функцию от патча в строковый модуль, чтобы добавить ее в качестве метода, мы также должны присвоить результат функции:

s = pad_with_tabs(s, ...)

В частности, я не мог получить чистые подходы с использованием списочного понимания или string.join (...)

''.join([s, '\t' * ntabs])

без специального случая, когда len (s) <целое число, кратное TABWIDTH, или len (s)> = maxlen уже.

Может кто-нибудь показать лучшие функции len () и pad_with_tabs ()?

Ответы [ 3 ]

6 голосов
/ 17 ноября 2009
TABWIDTH=8
def my_len(s):
    return len(s.expandtabs(TABWIDTH))

def pad_with_tabs(s,maxlen):
    return s+"\t"*((maxlen-len(s)-1)/TABWIDTH+1)

Почему я использовал expandtabs()?
Ну, это быстро

$ python -m timeit '"Bear\tnecessities\t".expandtabs()'
1000000 loops, best of 3: 0.602 usec per loop
$ python -m timeit 'for c in "Bear\tnecessities\t":pass'
100000 loops, best of 3: 2.32 usec per loop
$ python -m timeit '[c for c in "Bear\tnecessities\t"]'
100000 loops, best of 3: 4.17 usec per loop
$ python -m timeit 'map(None,"Bear\tnecessities\t")'
100000 loops, best of 3: 2.25 usec per loop

Все, что перебирает вашу строку, будет медленнее, потому что просто итерация примерно в 4 раза медленнее, чем expandtabs, даже если вы ничего не делаете в цикле.

$ python -m timeit '"Bear\tnecessities\t".split("\t")'
1000000 loops, best of 3: 0.868 usec per loop

Даже простое разбиение вкладок занимает больше времени. Вам по-прежнему нужно перебирать разделение и вставлять каждый элемент в табуляцию

1 голос
/ 17 ноября 2009

Я считаю, что Гнибблер - лучший для большинства случаев заболевания. Но в любом случае, вот наивное (без учета CR, LF и т. Д.) Решение для вычисления длины строки без создания расширенной копии:

def tab_aware_len(s, tabstop=8):
    pos = -1
    extra_length = 0
    while True:
        pos = s.find('\t', pos+1)
        if pos<0:
            return len(s) + extra_length
        extra_length += tabstop - (pos+extra_length) % tabstop - 1

Вероятно, это может быть полезно для некоторых огромных строк или даже отображенных в память файлов. А вот функция заполнения немного оптимизирована:

def pad_with_tabs(s, max_len, tabstop=8):
    length = tab_aware_len(s, tabstop)
    if length<max_len:
        s += '\t' * ((max_len-1)//tabstop + 1 - length//tabstop)
    return s
0 голосов
/ 17 ноября 2009

TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) ) действительно является огромным перебором; Вы можете получить тот же результат гораздо проще. Для положительных значений i и n используйте:

def round_up_positive_int(i, n):
    return ((i + n - 1) // n) * n

Эта процедура работает практически на любом языке, который я когда-либо использовал, после соответствующего перевода.

Тогда вы можете сделать next_pos = round_up_positive_int(len(s), TABWIDTH)

Для небольшого увеличения элегантности вашего кода вместо

while(s_len < maxlen):

используйте это:

while s_len < maxlen:
...