Сводная таблица в Python - PullRequest
       36

Сводная таблица в Python

0 голосов
/ 10 октября 2018

Я довольно новичок в Python, и поэтому мне нужна ваша помощь по следующим вопросам:

У меня есть две таблицы (датафреймы):

В таблице 1 есть все данные, и похоже, что:

Table1

В столбце GenDate указан день генерации.Столбец даты содержит даты.Столбец D и далее имеет различные значения

У меня также есть следующая таблица:

Table 2

В столбце I есть «ключевые слова», которые могут бытьнаходится в заголовке таблицы 1. Столбец K содержит даты, которые должны быть в столбце C таблицы 1

. Моя цель - создать таблицу, подобную следующей:

Table 3

Я упустил несколько столбцов для целей иллюстрации.

Каждый столбец в таблице 1 должен разделяться на основе типа, который записан в заголовке.

Ex,A_Weeks: Недели соответствуют 3 разделениям, неделе1, неделе2 и неделе3

Каждый из этих разделов имеет определенную дату.

в новой таблице, необходимо создать 3 столбца, используя A_ изатем имя разделения:

A_Week1, A_Week2 и A_Week3.

для каждого из этих столбцов, следует использовать значение, соответствующее дате каждого разделения.

Я надеюсь, что объяснение хорошее.

Спасибо

1 Ответ

0 голосов
/ 10 октября 2018

Вы можете получить нужную таблицу с помощью следующего кода (следите за комментариями и проверяйте ссылку на panda api, чтобы узнать об используемых функциях):

import numpy as np
import pandas as pd

# initial data
t_1 = pd.DataFrame(
    {'GenDate': [1, 1, 1, 2, 2, 2],
     'Date': [10, 20, 30, 10, 20, 30],
     'A_Days': [11, 12, 13, 14, 15, 16],
     'B_Days': [21, 22, 23, 24, 25, 26],
     'A_Weeks': [110, 120, 130, 140, np.NaN, 160],
     'B_Weeks': [210, 220, 230, 240, np.NaN, 260]})
# initial data
t_2 = pd.DataFrame(
    {'Type': ['Days', 'Days', 'Days', 'Weeks', 'Weeks'],
     'Split': ['Day1', 'Day2', 'Day3', 'Week1', 'Week2'],
     'Date': [10, 20, 30, 10, 30]})

# create multiindex
t_1 = t_1.set_index(['GenDate', 'Date'])
# pivot 'Date' level of MultiIndex - unstack it from index to columns
# and drop columns with all NaN values
tt_1 = t_1.unstack().dropna(axis=1)

# tt_1 is what you need with multi-level column labels

# map to rename columns
t_2 = t_2.set_index(['Type'])
mapping = {
    type_: dict(zip(
        t_2.loc[type_, :].loc[:, 'Date'],
        t_2.loc[type_, :].loc[:, 'Split']))
    for type_ in t_2.index.unique()}

# new column names
new_columns = list()
for letter_type, date in tt_1.columns.values:
    letter, type_ = letter_type.split('_')
    new_columns.append('{}_{}'.format(letter, mapping[type_][date]))

tt_1.columns = new_columns
...