Эффективный способ заменить значения в одном столбце, используя другой столбец в пандах - PullRequest
0 голосов
/ 04 октября 2018

Как заменить строковые значения в столбце данных [1], используя список строковых значений в другом столбце [2].

Данные

          0                       1            2              3
0  3000 20%  dummy1 3000 dummy2 20%  [3000, 20%]  dummy1 dummy2

Я хочу заменить строковое значение в столбце 1, например, «dummy1 3000 dummy2 20%», используя список в столбце 2, т.е. «[3000, 20%]».Таким образом, 3000 и 20% заменяются на «» (пустая строка) из строки, чтобы сформировать 3-й столбец (Результат), т.е. «dummy1 dummy2»

Код

df = pd.DataFrame([['3000 20%', 'dummy1 3000 dummy2 20%']])
df[2] = df[0].str.split(' ')

def replace_string(x):
    repl_string = str(x[1])
    for key in x[2]:
        repl_string = repl_string.replace(key, '')
    return ' '.join(repl_string.split())

df[3] = df.apply(replace_string, axis=1)

В настоящее время я написал приведенный выше код, который является медленным для больших данных.Как повысить эффективность этого кода или есть ли другой способ сделать это?

1 Ответ

0 голосов
/ 04 октября 2018

Использовать понимание вложенного списка:

df = pd.DataFrame([['3000 20%', 'dummy1 a 3000 dummy2 20%'],
                   ['abc 2%', 'klmn 3000 dummy2 2%']])
print (df)
          0                         1
0  3000 20%  dummy1 a 3000 dummy2 20%
1    abc 2%       klmn 3000 dummy2 2%

df[3] = [' '.join(y for y in j.split() if y not in i.split()) for i, j in zip(df[0], df[1])]
print (df)
          0                         1                 3
0  3000 20%  dummy1 a 3000 dummy2 20%   dummy1 a dummy2
1    abc 2%       klmn 3000 dummy2 2%  klmn 3000 dummy2
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...