Только скопируйте один ключевой столбец в объединенный DataFrame - PullRequest
0 голосов
/ 08 ноября 2018

Рассмотрим следующие фреймы данных:

df1 = pd.DataFrame({'a': [0, 1, 2, 3], 'b': list('abcd')})
df2 = pd.DataFrame({'c': list('abcd'), 'd': 'Alex'})

В этом случае df1['b'] и df2['c'] являются ключевыми столбцами. Итак, при объединении:

df1.merge(df2, left_on='b', right_on='c')
   a  b  c     d
0  0  a  a  Alex
1  1  b  b  Alex
2  2  c  c  Alex
3  3  d  d  Alex

Я получаю оба ключевых столбца в результирующем DataFrame, когда мне нужен только один. Я использую:

df1.merge(df2, left_on='b', right_on='c').drop('c', axis='columns')

Можно ли сохранить только один ключевой столбец?

Ответы [ 5 ]

0 голосов
/ 08 ноября 2018

После set_index вы можете напрямую assign значение

df1.set_index('b').assign(c=df2.set_index('c').d).reset_index()
Out[233]: 
   b  a     c
0  a  0  Alex
1  b  1  Alex
2  c  2  Alex
3  d  3  Alex
0 голосов
/ 08 ноября 2018

map

Противный (не рекомендуемый) метод, который я был вынужден отменить, потому что случайно отправил дубликат ответа кому-то еще.

df1.assign(d=df1.b.map(dict(df2.values)))

   a  b     d
0  0  a  Alex
1  1  b  Alex
2  2  c  Alex
3  3  d  Alex
0 голосов
/ 08 ноября 2018

Другой способ - присвоить b и c одно и то же имя. По крайней мере, для операции слияния.

df1.rename({'b': 'c'}, axis=1).merge(df2)
   a  c     d
0  0  a  Alex
1  1  b  Alex
2  2  c  Alex
3  3  d  Alex
0 голосов
/ 08 ноября 2018

Или используйте один set_index и left_index=True и right_on параметр:

df1.set_index('b').merge(df2, left_index=True, right_on='c')

Выход:

   a  c     d
0  0  a  Alex
1  1  b  Alex
2  2  c  Alex
3  3  d  Alex
0 голосов
/ 08 ноября 2018

Один из способов - установить b и c в качестве индекса ваших фреймов соответственно и использовать join, за которым следует reset_index:

df1.set_index('b').join(df2.set_index('c')).reset_index()

   b  a     d
0  a  0  Alex
1  b  1  Alex
2  c  2  Alex
3  d  3  Alex

Это будет быстрее, чем метод merge/drop на больших фреймах данных, в основном потому, что drop медленный. Метод @ Билла быстрее, чем мое предложение, и @ W-B & @PiRsquared легко превзошли другие предложения:

import timeit

df1 = pd.concat((df1 for _ in range(1000)))
df2 = pd.concat((df2 for _ in range(1000)))

def index_method(df1 = df1, df2 = df2):
    return df1.set_index('b').join(df2.set_index('c')).reset_index()


def merge_method(df1 = df1, df2=df2):
    return df1.merge(df2, left_on='b', right_on='c').drop('c', axis='columns')

def rename_method(df1 = df1, df2 = df2):
    return df1.rename({'b': 'c'}, axis=1).merge(df2)

def index_method2(df1 = df1, df2 = df2):
    return df1.join(df2.set_index('c'), on='b')

def assign_method(df1 = df1, df2 = df2):
    return df1.set_index('b').assign(c=df2.set_index('c').d).reset_index()

def map_method(df1 = df1, df2 = df2):
    return df1.assign(d=df1.b.map(dict(df2.values)))

>>> timeit.timeit(index_method, number=10) / 10
0.7853091600998596
>>> timeit.timeit(merge_method, number=10) / 10
1.1696729859002517
>>> timeit.timeit(rename_method, number=10) / 10
0.4291436871004407
>>> timeit.timeit(index_method2, number=10) / 10
0.5037374985004135
>>> timeit.timeit(assign_method, number=10) / 10
0.0038641377999738325
>>> timeit.timeit(map_method, number=10) / 10
0.006620216699957382
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...