Генерация случайных данных с использованием мультииндексного объекта dataframe grouped_by в Python - PullRequest
0 голосов
/ 27 февраля 2019

В таблице ниже представлена ​​сводная статистика о расходах для каждого лидера и типе расходов.У меня есть стабильная, хранящаяся в Python как многоиндексный объект фрейма данных.Моя цель - генерировать случайные данные для каждого лидера и типа расходов, используя среднее значение и стандартное отклонение для каждой категории (запустите приведенный ниже фрагмент кода, чтобы получить таблицу).Существует столбец «count», который представляет, сколько случайных чисел я хочу сгенерировать для каждой комбинации Leader-Expense_Type.Я придумал обширные и неэффективные циклические структуры, которые, кажется, не делают работу правильно.Как мне подойти к этой проблеме?

Примечание. Это всего лишь образец данных.Есть еще много лидеров с таким же количеством типов расходов.

<table border="1" class="dataframe">  <thead>    <tr>      <th></th>      <th></th>      <th colspan="3" halign="left">Expense_Amount</th>    </tr>    <tr>      <th></th>      <th></th>      <th>mean</th>      <th>std</th>      <th>count</th>    </tr>    <tr>      <th>Leader</th>      <th>Expense_Type</th>      <th></th>      <th></th>      <th></th>    </tr>  </thead>  <tbody>    <tr>      <th rowspan="7" valign="top">Leader1</th>      <th>Airfare</th>      <td>1979.684219</td>      <td>2731.629767</td>      <td>1358</td>    </tr>    <tr>      <th>Booking Fees</th>      <td>118.994538</td>      <td>270.007390</td>      <td>1179</td>    </tr>    <tr>      <th>Conference/Seminars</th>      <td>1553.830923</td>      <td>1319.295946</td>      <td>65</td>    </tr>    <tr>      <th>Hotel</th>      <td>1656.643658</td>      <td>2104.721093</td>      <td>1405</td>    </tr>    <tr>      <th>Meals</th>      <td>435.665122</td>      <td>676.705857</td>      <td>1476</td>    </tr>    <tr>      <th>Mileage</th>      <td>213.785046</td>      <td>284.908031</td>      <td>979</td>    </tr>    <tr>      <th>Taxi/Uber</th>      <td>308.530724</td>      <td>380.288964</td>      <td>1422</td>    </tr>    <tr>      <th rowspan="7" valign="top">Leader2</th>      <th>Airfare</th>      <td>1730.196911</td>      <td>2334.688155</td>      <td>628</td>    </tr>    <tr>      <th>Booking Fees</th>      <td>112.020556</td>      <td>573.407269</td>      <td>576</td>    </tr>    <tr>      <th>Conference/Seminars</th>      <td>1647.576500</td>      <td>1154.320584</td>      <td>80</td>    </tr>    <tr>      <th>Hotel</th>      <td>1693.080356</td>      <td>1953.552474</td>      <td>618</td>    </tr>    <tr>      <th>Meals</th>      <td>574.228548</td>      <td>844.997595</td>      <td>620</td>    </tr>    <tr>      <th>Mileage</th>      <td>215.898798</td>      <td>291.231331</td>      <td>466</td>    </tr>    <tr>      <th>Taxi/Uber</th>      <td>298.655852</td>      <td>340.926518</td>      <td>569</td>    </tr>  </tbody></table>

Ответы [ 2 ]

0 голосов
/ 27 февраля 2019

Это мое решение:

# Dictionary to hold generated data
rand_expenses_dict = {}

# Loop over each unique leader
for leader in agg_data.index.get_level_values("Leader").unique():

# Loop over each unique expense type
for expense_type in agg_data.index.get_level_values("Expense_Type").unique():

    # Not al leaders have all expense types
    # The exception handling method will ignore expense types
    # That do not correspond to a leader
    try:

        # Generate random numbers
        rand = (np.round(
                        np.random.normal(
                            loc=agg_data.loc[leader, expense_type][0],
                            scale = agg_data.loc[leader, expense_type][1],
                            size  = int(agg_data.loc[leader, expense_type][2])
                        ),2))

        # Add random numbers to data dictionaty
        rand_expenses_dict[(leader,expense_type)] = rand

    # If it finds an error, go to the next expense
    except:
        pass
0 голосов
/ 27 февраля 2019

Вы можете использовать df.apply(your_function, axis=1) с

def your_function(df):
    mean = df['mean']
    std = df['std']
    result = mean  # Replace with your number generator
    return result

Более подробное описание см. В этом ответе: Как применить функцию к двум столбцам Pandas dataframe

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...