Оптимизация слияния на основе двух столбцов в pandas python - PullRequest
0 голосов
/ 24 апреля 2018

У меня есть 2 фрейма данных:

df1 = pd.DataFrame({ 'message' : (["hi","hi","hello?","bye","are you there?","how are you?"]),
                     'serial' : ([14,12,13,13,14,14]),
                     'messageOrder': (1,1,1,2,3,2)})

df2 = pd.DataFrame({ 'message' : (["hi","hi","hello?","bye","are you there?","how are you?"]),
                    'B' : pd.Timestamp('20130102'),
                    'D' : np.array([3] * 6,dtype='int32'),
                    'serial' : ([14,12,13,13,14,14])})

Я ищу лучший способ объединить столбец messageOrder из df1 в df2 (в df2 есть еще много столбцов, которые я не включил в пример).Я думал об итерации по всем строкам и:

  • Убедитесь, что "serial" идентичен между двумя строками в df1 и df2
  • Соответствует столбцам "message" в соответствии с его содержимым.

Есть ли элегантный способ сделать это?

кадры данных имеют длину 14 000 строк, каждый "последовательный" имеет 1-20 значений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...