применить / векторизовать / ускорить функцию очистки по столбцам в pandas dataframe - PullRequest
0 голосов
/ 09 января 2019

У меня есть некоторый код конвейера данных, который применяет логику преобразования / очистки к столбцам кадра данных Pandas на основе их имени.

Прямо сейчас я перебираю столбцы, используя df.iteritems(), что согласно этому руководству по оптимизации функций применения Pandas лучше, чем грубое зацикливание, но является "наименее эффективным способом запуска большинства стандартных функций". .

Я бы хотел улучшить производительность этого кода, либо воспользовавшись возможностью Pandas векторизовать эти операции, либо другим параллельным подходом.

Все сработанные примеры, которые я видел, иллюстрируют, как это сделать по строкам (например, вычислить на Серии вместо вычисления на одной строке), но я не смог найти хороший пример того, как это сделать по столбцам .

Вот воспроизводимый / игрушечный пример с использованием набора данных Бостона из scikit learn. Желаемым результатом является реализация логики очистки в векторизованном / параллельном режиме (без использования .iteritems() или циклов). Спасибо!

from typing import Callable

# sample df from sklearn
from sklearn import datasets
boston = datasets.load_boston()
boston = pd.DataFrame(boston.data, columns=boston.feature_names)
boston.head()

def double_it(col: pd.Series) -> pd.Series:
    return col.multiply(2)

def make_string(col: pd.Series) -> pd.Series:
    return col.astype(str)

def do_nothing(col: pd.Series) -> pd.Series:
    return col

def match_cleaner(col_name: str) -> Callable:
    if col_name in ['ZN', 'NOX', 'INDUS', 'AGE']:
        return double_it
    elif col_name in ['TAX', 'DIS', 'CHAS', 'PTRATIO']:
        return make_string
    else:
        print(col_name)
        return do_nothing

for key, value in boston.iteritems():
    cleaning_func = match_cleaner(key)
    boston.loc[:, key] = cleaning_func(value)

# confirm changes
boston.head()
print(boston.dtypes)

1 Ответ

0 голосов
/ 09 января 2019

Вы можете использовать pandas.DataFrame.apply . Метод apply по умолчанию применяет предоставленную функцию ко всем столбцам в кадре данных. Но вам нужно немного изменить вашу match_cleaner функцию.

def match_cleaner2(col):
     col_name = col.name
     if col_name in ['ZN', 'NOX', 'INDUS', 'AGE']:
         return double_it(col)
     elif col_name in ['TAX', 'DIS', 'CHAS', 'PTRATIO']:
         return make_string(col)
     else:
         return do_nothing(col)

b2 = boston.apply(match_cleaner2)
b2.head()
      CRIM             ZN          INDUS  ...   PTRATIO       B  LSTAT
0  0.00632  3.932955e+246  5.047292e+245  ...      15.3  396.90   4.98
1  0.02731   0.000000e+00  1.544777e+246  ...      17.8  396.90   9.14
2  0.02729   0.000000e+00  1.544777e+246  ...      17.8  392.83   4.03
3  0.03237   0.000000e+00  4.763245e+245  ...      18.7  394.63   2.94
4  0.06905   0.000000e+00  4.763245e+245  ...      18.7  396.90   5.33

%timeit boston.apply(match_cleaner2)
3.68 ms ± 68.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

def original():
     for k, v in boston.iteritems():
         clean_f = match_cleaner(k)
         boston.loc[:, k] = clean_f(v)

original()
boston.head()
      CRIM             ZN          INDUS  ...   PTRATIO       B  LSTAT
0  0.00632  3.932955e+246  5.047292e+245  ...      15.3  396.90   4.98
1  0.02731   0.000000e+00  1.544777e+246  ...      17.8  396.90   9.14
2  0.02729   0.000000e+00  1.544777e+246  ...      17.8  392.83   4.03
3  0.03237   0.000000e+00  4.763245e+245  ...      18.7  394.63   2.94
4  0.06905   0.000000e+00  4.763245e+245  ...      18.7  396.90   5.33


pd.testing.assert_frame_equal(b2, boston) # boston was modified in place

# No AssertionError means frames are equal

%timeit original()
6.14 ms ± 278 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Так что из очень грубого эксперимента функция применения выглядит так, чтобы ускорить это ~ 40%.

...