Как разместить дублирующиеся строки данных в одной строке - PullRequest
1 голос
/ 28 марта 2019

Я пытаюсь упорядочить дубликаты данных в одну строку, используя Python.

Позвольте мне показать вам пример: enter image description here

" Original"В кадре данных есть повторяющиеся данные.

" Цель"- это то, чего я пытаюсь достичь.

Как мне это сделать?

Если бы я использовал Pandas, как бы это выглядело?

Кстати, я получаю исходные данные из CSV-файла.

 PatientID  Model#  Ear   SerNum    FName   LName   PName   PPhone

 P99999    300     Left    1234567  John    Doe Jane Doe    (999) 111-2222
 P99999    400     Right   2345678  John    Doe Jane Doe    (999) 111-2222



 PID      ModleL  SerNumL   ModelR  SerNumR FName   LName   PName  PPhone
 P99999   300     1234567   400     2345678 John    Doe     J.Doe  (999) 111-2222

Ответы [ 3 ]

2 голосов
/ 28 марта 2019

Сначала мы разбиваем наши данные на left и right. После этого мы используем pandas.DataFrame.merge, чтобы объединить наши данные и дать правильные значения suffixes:

df_L = df[df.Ear == 'Left'].drop('Ear',axis=1)
df_R = df[df.Ear == 'Right'].drop('Ear', axis=1)

print(df_L, '\n')
print(df_R)

  PatientID  Model#   SerNum FName LName     PName          PPhone
0    P99999     300  1234567  John   Doe  Jane Doe  (999) 111-2222 

  PatientID  Model#   SerNum FName LName     PName          PPhone
1    P99999     400  2345678  John   Doe  Jane Doe  (999) 111-2222

Теперь мы можем объединиться и дать правильные суффиксы:

df = pd.merge(df_L, df_R.iloc[:, :3], on = 'PatientID', suffixes=['Left', 'Right'])

print(df)
  PatientID  Model#Left  SerNumLeft FName LName     PName          PPhone  \
0    P99999         300     1234567  John   Doe  Jane Doe  (999) 111-2222   

   Model#Right  SerNumRight  
0          400      2345678  
1 голос
/ 28 марта 2019

Это больше похоже на pivot проблему, поэтому я использую pivot_table здесь

s=df.pivot_table(index=['PatientID','FName','LName','PName','PPhone'],columns='Ear',values=['Model#','SerNum'],aggfunc='first')
s.columns=s.columns.map(' '.join)
s.reset_index(inplace=True)
s
  PatientID FName LName     ...      Model# Right SerNum Left SerNum Right
0    P99999  John   Doe     ...               400     1234567      2345678
[1 rows x 9 columns]
1 голос
/ 28 марта 2019

Лучший источник - официальный источник:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html

Возможно, вы также захотите узнать о мультииндексах, уровнях и т. Д.

Я предпочитаю присоединиться:

import pandas as pd

columns = ['PatientID', 'Model#', 'Ear', 'SerNum', 'FName', 'LName', 'PName', 'PPhone']
data = [[
    'P99999', '300', 'Left', '1234567', 'John', 'Doe', 'Jane Doe', '(999) 111-2222'],
    ['P99999', '400', 'Right', '2345678', 'John', 'Doe', 'Jane Doe', '(999) 111-2222']]

df = pd.DataFrame(data=data, columns=columns)
df = df.set_index('PatientID')

df = df[df['Ear'] == 'Left'].drop('Ear', axis=1).join(df[df['Ear'] == 'Right'].drop('Ear', axis=1), lsuffix='_left', rsuffix='_right').reset_index()

Вывод:

  PatientID Model#_left SerNum_left  ... LName_right PName_right    PPhone_right
0    P99999         300     1234567  ...         Doe    Jane Doe  (999) 111-2222

РЕДАКТИРОВАТЬ :
1. Исправлено, забыл сбросить столбец:)
2. Теперь с вашими данными:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...