Какой самый питонский / эффективный способ условно разделить длинные строки? - PullRequest
2 голосов
/ 11 октября 2019

У меня есть фрейм данных со столбцом Results, который может быть довольно длинным. Поскольку фрейм данных заканчивается в отчете Excel, это проблематично, поскольку Excel только сделает строку настолько высокой, прежде чем просто не отобразит все данные. Вместо этого я хотел бы разбить строки с результатами определенной длины на несколько строк.

Я написал некоторый код для мелкомасштабного фрейма данных, чтобы разбить результаты на куски по 2. Я не определился, как поместить каждый кусок в новый ряд. Кроме того, я не уверен, что это будет самый эффективный метод, когда мой фрейм данных идет от 6 строк до 35k +. Какой самый эффективный / Pythonic способ достичь того, что я хочу?

Исходный фрейм данных

                        Result        Date
0                    [SUCCESS]  10/10/2019
1                    [SUCCESS]  10/09/2019
2                    [FAILURE]  10/08/2019
3  [Pending, Pending, SUCCESS]  10/07/2019
4                    [FAILURE]  10/06/2019
5           [Pending, SUCCESS]  10/05/2019

Вывод цели

               Result        Date
0           [SUCCESS]  10/10/2019
1           [SUCCESS]  10/09/2019
2           [FAILURE]  10/08/2019
3  [Pending, Pending]  10/07/2019
4           [SUCCESS]  10/07/2019
5           [FAILURE]  10/06/2019
6  [Pending, SUCCESS]  10/05/2019

Код

import pandas as pd
import numpy as np

data = {'Result': [['SUCCESS'], ['SUCCESS'], ['FAILURE'], ['Pending', 'Pending', 'SUCCESS'], ['FAILURE'], ['Pending', 'SUCCESS']], 'Date': ['10/10/2019', '10/09/2019', '10/08/2019', '10/07/2019', '10/06/2019', '10/05/2019']}

df = pd.DataFrame(data)
df['Length of Results'] = df['Result'].str.len()

def chunks(l, n):
    for i in range(0, len(l), n):
        yield l[i:i + n]

for i in range(len(df)):
    if df['Length of Results'][i] > 2:
        df['Result'][i] = list(chunks(df['Result'][i], 2))
    else:
        pass

df['Chunks'] = 1
for i in range(len(df)):
    if df['Length of Results'][i] > 2:
        df['Chunks'][i] = len(df['Result'][i])
    else:
        pass

df = df.loc[np.repeat(df.index.values, df.Chunks)]
df = df.reset_index(drop=True)

Код, производимый в настоящее время

                            Result        Date  Length of Results  Chunks
0                        [SUCCESS]  10/10/2019                  1       1
1                        [SUCCESS]  10/09/2019                  1       1
2                        [FAILURE]  10/08/2019                  1       1
3  [[Pending, Pending], [SUCCESS]]  10/07/2019                  3       2
4  [[Pending, Pending], [SUCCESS]]  10/07/2019                  3       2
5                        [FAILURE]  10/06/2019                  1       1
6               [Pending, SUCCESS]  10/05/2019                  2       1

df.to_dict ()

{'Result': {0: ['SUCCESS'], 1: ['SUCCESS'], 2: ['FAILURE'], 3: [['Pending', 'Pending'], ['SUCCESS']], 4: [['Pending', 'Pending'], ['SUCCESS']], 5: ['FAILURE'], 6: ['Pending', 'SUCCESS']}, 'Date': {0: '10/10/2019', 1: '10/09/2019', 2: '10/08/2019', 3: '10/07/2019', 4: '10/07/2019', 5: '10/06/2019', 6: '10/05/2019'}, 'Length of Results': {0: 1, 1: 1, 2: 1, 3: 3, 4: 3, 5: 1, 6: 2}, 'Chunks': {0: 1, 1: 1, 2: 1, 3: 2, 4: 2, 5: 1, 6: 1}}

Ответы [ 2 ]

1 голос
/ 11 октября 2019

Я бы порекомендовал поместить каждый pending/SUCCESS/FAILURE в один ряд, используя df.explode, если вы находитесь на пандах 0,25 +:

df = df.explode('Result')
df.groupby(['Date','Result']).count().reset_index(name='Length')

Вывод:

         Date   Result  Length
0  10/05/2019  Pending       1
1  10/05/2019  SUCCESS       1
2  10/06/2019  FAILURE       1
3  10/07/2019  Pending       2
4  10/07/2019  SUCCESS       1
5  10/08/2019  FAILURE       1
6  10/09/2019  SUCCESS       1
7  10/10/2019  SUCCESS       1
1 голос
/ 11 октября 2019

Вы можете сделать

s=df[['Date','Result']].explode('Result')

t=s.groupby(['Date','Result'])['Result'].transform('size')>1
s.groupby([s.Date,t]).Result.agg(list).reset_index(level=0).reset_index(drop=True)
Out[65]: 
         Date              Result
0  10/05/2019  [Pending, SUCCESS]
1  10/06/2019           [FAILURE]
2  10/07/2019           [SUCCESS]
3  10/07/2019  [Pending, Pending]
4  10/08/2019           [FAILURE]
5  10/09/2019           [SUCCESS]
6  10/10/2019           [SUCCESS]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...