Панды: ломтик Multindex со многими показателями - PullRequest
4 голосов
/ 13 июня 2019

У меня есть фрейм данных d с примерно 100,000,000 строками и 3 столбцами.Это выглядит примерно так:

import pandas as pd 

In [17]: d = pd.DataFrame({'id': ['a', 'b', 'c', 'd', 'e'], 'val': [1, 2, 3, 4, 5], 'n': [34, 22, 95, 86, 44]}) 

In [18]: d.set_index(['id', 'val'], inplace = True)

У меня есть другой фрейм данных со значениями id и val, который я хочу сохранить в d.Есть около 600 000 комбинаций id и val, которые я хочу сохранить:

In [20]: keep = pd.DataFrame({'id':['a', 'b'], 'val' : [1, 2]})

Я пробовал это следующим образом:

In [21]: keep.set_index(['id', 'val'], inplace = True)

In [22]: d.loc[d.index.isin(keep.index), :] 
Out [22]:         
                   n
         id val    
          a  1    34
          b  2    22

Это работает, но кажетсянеуклюжий и очень медленный.Есть ли лучший подход здесь?Какой самый быстрый способ нарезать на Multindex в пандах?

Ответы [ 3 ]

5 голосов
/ 13 июня 2019

loc принимает список кортежей для ссылки на MultiIndex

d.loc[[*keep.itertuples(index=False)]]

         n
id val    
a  1    34
b  2    22

Более отвратительный способ сделать то же самое. (На самом деле не рекомендация)

d.loc[[*zip(*map(keep.get, keep))]]

         n
id val    
a  1    34
b  2    22

Преимущество на 3 символа меньше. Вам нужно только пожертвовать пониманием того, что происходит.

5 голосов
/ 13 июня 2019

Использование reindex

d.reindex(pd.MultiIndex.from_frame(keep))
Out[151]: 
         n
id val    
a  1    34
b  2    22
3 голосов
/ 13 июня 2019

Используйте loc для индексации d, используя keep:

# d.loc[pd.MultiIndex.from_arrays([keep['id'], keep['val']]))]
d.reindex(pd.MultiIndex.from_arrays([keep['id'], keep['val']])))

         n
id val    
a  1    34
b  2    22

Где,

pd.MultiIndex.from_arrays([keep['id'], keep['val']])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 1], [0, 1]],
           names=['id', 'val'])

Создает MultiIndex из keep, который используется для фильтрации.


Другой вариант - попытаться объединиться с df.merge:

d.merge(keep, left_index=True, right_on=['id', 'val'])

    n id  val
0  34  a    1
1  22  b    2

d.merge(keep, left_index=True, right_on=['id', 'val']).set_index(['n', 'id'])

       val
n  id     
34 a     1
22 b     2

Или даже

d.join(keep.set_index(['id', 'val']), how='inner')

         n
id val    
a  1    34
b  2    22
...