Панды: объединить два DataFrames с отсортированными MultiIndex, чтобы результат имел отсортированный MultiIndex - PullRequest
0 голосов
/ 17 мая 2018

Пожалуйста, дайте мне знать, как объединить два DataFrames с отсортированными MultiIndex, чтобы результат имел отсортированный MultiIndex.

Поскольку оба отсортированы, алгоритм должен иметь линейную сложность с точки зрения общего количества строк в обоих фреймах данных (это сложность объединения двух отсортированных списков, что фактически является проблемой здесь).

Пример:

import pandas as pd
t1 = pd.DataFrame(data={'i1':[0,0,1,1,2,2],
                        'i2':[0,1,0,1,0,1],
                        'x':[1.,2.,3.,4.,5.,6.]})
t1.set_index(['i1','i2'], inplace=True)
t1.sort_index(inplace=True)
t2 = pd.DataFrame(data={'i1':[0,0,1,1,2,2],
                        'i2':[2,3,2,3,2,3],
                        'x':[7.,8.,9.,10.,11.,12.]})
t2.set_index(['i1','i2'], inplace=True)
t2.sort_index(inplace=True)
>>> print(t1)
         x
i1 i2     
0  0   1.0
   1   2.0
1  0   3.0
   1   4.0
2  0   5.0
   1   6.0

>>> print(t2)
          x
i1 i2      
0  2    7.0
   3    8.0
1  2    9.0
   3   10.0
2  2   11.0
   3   12.0

Ожидаемый результат:

          x
i1 i2      
0  0    1.0
   1    2.0
   2    7.0
   3    8.0
1  0    3.0
   1    4.0
   2    9.0
   3   10.0
2  0    5.0
   1    6.0
   2   11.0
   3   12.0

Спасибо за вашу помощь!

1 Ответ

0 голосов
/ 17 мая 2018

Вот ответ кандидата. Я все еще работаю, чтобы подтвердить его алгоритмическую эффективность. Пожалуйста, прокомментируйте, если у вас есть мнение:

def linConcat(t1, t2):
    t = t1.reindex( index=t1.index.union(t2.index) )
    t.loc[t2.index,:] = t2
    return t
>>> linConcat(t1, t2)
          x
i1 i2      
0  0    1.0
   1    2.0
   2    7.0
   3    8.0
1  0    3.0
   1    4.0
   2    9.0
   3   10.0
2  0    5.0
   1    6.0
   2   11.0
   3   12.0
...