Автоматическое преобразование в новые данные - Pandas - PullRequest
0 голосов
/ 02 июля 2018

Я новичок в python, я ищу в StackOverflow свой случай, но не смог найти технический ответ. У меня есть большое количество строк BS.

у меня такая проблема, у меня есть dataframe:

df
BS          N
BS1 - BS5   1
BS2 - BS7   2
BS1 - BS9   2
BS9 - BS1   1

Я хочу сделать новые данные автоматически. Мой ожидаемый результат, как это:

New_BS  BS1 - BS5   BS2 - BS7   BS1 - BS9   BS9 - BS1   Total
BS1-2       1                       2                     3
BS2-3       1           2           2                     5
BS3-4       1           2           2                     5
BS4-5       1           2           2                     5
BS5-6                   2           2                     4
BS6-7                   2           2                     4
BS7-8                               2                     2
BS8-9                               2                     2
BS9-8                                            1        1
BS8-7                                            1        1
BS7-6                                            1        1
BS6-5                                            1        1
BS5-4                                            1        1
BS4-3                                            1        1
BS3-2                                            1        1
BS2-1                                            1        1

заранее благодарю за помощь

1 Ответ

0 голосов
/ 02 июля 2018

Ну, это полный взлом, но это было весело ...

import pandas as pd
import numpy as np

df = df_flat = pd.DataFrame({"BS": ['BS1 - BS5', 'BS2 - BS7', 'BS1 - BS9', 'BS9 - BS1'],
                   "N" : [1, 2, 2, 1]})

df = df.pivot(columns='BS',
              values='N')

df_flat = df_flat.pivot_table(
              columns='BS',
              values='N')

for column_name, column in zip(list(df), df):
    if int(column[2:3]) < int(column[8:9]):
        for stop in range(int(column[2:3]), int(column[8:9])):
            index = "BS" + str(stop) + "-" + str(stop + 1)
            if index not in list(df.index.values):
                df.loc[index] = np.nan
            df.loc[index, column] = df_flat.loc['N', column]
    else:
        for stop in range(int(column[2:3]), int(column[8:9]), -1):
            index = "BS" + str(stop) + "-" + str(stop - 1)
            if index not in list(df.index.values):
                df.loc[index] = np.nan
            df.loc[index, column] = df_flat.loc['N', column]

df['Total'] = df.sum(axis=1)

df = df.iloc[len(list(df_flat)):]

print(df.fillna(''))

выход

$ python bus.py
BS    BS1 - BS5 BS1 - BS9 BS2 - BS7 BS9 - BS1  Total
BS1-2         1         2                        3.0
BS2-3         1         2         2              5.0
BS3-4         1         2         2              5.0
BS4-5         1         2         2              5.0
BS5-6                   2         2              4.0
BS6-7                   2         2              4.0
BS7-8                   2                        2.0
BS8-9                   2                        2.0
BS9-8                                       1    1.0
BS8-7                                       1    1.0
BS7-6                                       1    1.0
BS6-5                                       1    1.0
BS5-4                                       1    1.0
BS4-3                                       1    1.0
BS3-2                                       1    1.0
BS2-1                                       1    1.0

Есть около 1000 способов улучшить это, но это хорошее начало ...

Обратите внимание, что нарезка является очень существенным ограничением для набора данных - - Вам придется действительно переработать это, чтобы сделать его динамичным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...