Я создал класс с двумя методами, NRG_load
и NRG_flat
.Первый загружает CSV, преобразует его в DataFrame и применяет некоторую фильтрацию;вторая берет этот DataFrame и после создания двух столбцов melt
s DataFrame для его поворота.
Я пробую эти методы со следующим кодом:
nrg105 = eNRG.NRG_load('nrg_105a.tsv')
nrg105_flat = eNRG.NRG_flat(nrg105, '105')
является классом, а '105' в качестве второго аргумента необходим для запуска цикла if внутри метода для создания вышеупомянутых столбцов.
Поведение, которое я не могу объяснить, заключается в том, что вторая строка - однас помощью метода NRG_flat
- изменяет значения nrg105
Обратите внимание, что если я запускаю только метод NRG_load
, я получаю ожидаемый фрейм данных.
Что такоеповедение, которое мне не хватает? Потому что я не первый раз применяю подобный синтаксис, но у меня никогда не было проблем, поэтому я не знаю, куда мне обратиться.
Заранее спасибо завсе ваши предложения.
РЕДАКТИРОВАТЬ: как требуется, вот код класса:
# -*- coding: utf-8 -*-
Created on Tue Apr 16 15:22:21 2019
@author: CAPIZZI Filippo Antonio
import pandas as pd
from FixFilename import FixFilename as ff
from SplitColumn import SplitColumn as sc
from datetime import datetime as ddt
class EurostatNRG:
# This class includes the modules needed to load and filter
# the Eurostat NRG files
# Default countries' lists to be used by the functions
'EU28', 'AL', 'AT', 'BE', 'BG', 'CY', 'CZ', 'DE', 'DK', 'EE', 'EL',
'ES', 'FI', 'FR', 'GE', 'HR', 'HU', 'IE', 'IS', 'IT', 'LT', 'LU', 'LV',
'MD', 'ME', 'MK', 'MT', 'NL', 'NO', 'PL', 'PT', 'RO', 'SE', 'SI', 'SK',
'TR', 'UA', 'UK', 'XK'
# Default years of analysis
YEARS = list(range(2005, int(ddt.now().year) - 1))
# NOTE: the 'datetime' library will call the current year, but since
# the code is using the 'range' function, the end years will be always
# current-1 (e.g. if we are in 2019, 'current year' will be 2018).
# Thus, I have added "-1" because the end year is t-2.
INDIC_PROD = pd.read_excel(
'nrg105a_indic', 'nrg105a_prod', 'nrg110a_indic', 'nrg110a_prod',
def NRG_load(dataset, countries=COUNTRIES, years=YEARS, unit='ktoe'):
# This module will load and refine the NRG dataset,
# preparing it to be filtered
# Fix eventual flags
dataset = ff.fix_flags(dataset)
# Load the dataset into a DataFrame
df = pd.read_csv(
na_values=[':', ': ', ' :'],
# Clean up spaces from the column names
df.columns = df.columns.str.strip()
# Removes the mentioned column because it's not needed
if 'Flag and Footnotes' in df.columns:
df.drop(columns=['Flag and Footnotes'], inplace=True)
# Split the first column into separate columns
df = sc.nrg_split_column(df)
# Rename the columns
'country': 'COUNTRY',
'fuel_code': 'KEY_PRODUCT',
'nrg_code': 'KEY_INDICATOR',
'unit': 'UNIT'
# Filter the dataset
df = EurostatNRG.NRG_filter(
df, countries=countries, years=years, unit=unit)
return df
def NRG_filter(df, countries, years, unit):
# This module will filter the input DataFrame 'df'
# showing only the 'countries', 'years' and 'unit' selected
# First, all of the units not of interest are removed
df.drop(df[df.UNIT != unit.upper()].index, inplace=True)
# Then, all of the countries not of interest are filtered out
df.drop(df[~df['COUNTRY'].isin(countries)].index, inplace=True)
# Finally, all of the years not of interest are removed,
# and the columns are rearranged according to the desired output
cols = main_cols + [str(y) for y in years if y not in main_cols]
df = df.reindex(columns=cols)
return df
def NRG_flat(df, name):
# This module prepares the DataFrame to be flattened,
# then it gives it as output
# Assign the indicators and products' names
if '105' in name: # 'name' is the name of the dataset
# Creating the 'INDICATOR' column
indic_dic = dict(
df['INDICATOR'] = df['KEY_INDICATOR'].map(indic_dic)
# Creating the 'PRODUCT' column
prod_dic = dict(
str), EurostatNRG.INDIC_PROD['nrg105a_prod'].PRODUCT))
df['PRODUCT'] = df['KEY_PRODUCT'].map(prod_dic)
elif '110' in name:
# Creating the 'INDICATOR' column
indic_dic = dict(
df['INDICATOR'] = df['KEY_INDICATOR'].map(indic_dic)
# Creating the 'PRODUCT' column
prod_dic = dict(
str), EurostatNRG.INDIC_PROD['nrg110a_prod'].PRODUCT))
df['PRODUCT'] = df['KEY_PRODUCT'].map(prod_dic)
# Delete che columns 'KEY_INDICATOR' and 'KEY_PRODUCT', and
# rearrange the columns in the desired order
df.drop(columns=['KEY_INDICATOR', 'KEY_PRODUCT'], inplace=True)
main_cols = ['INDICATOR', 'PRODUCT', 'UNIT', 'COUNTRY']
year_cols = [y for y in df.columns if y not in main_cols]
cols = main_cols + year_cols
df = df.reindex(columns=cols)
# Pivot the DataFrame to have it in flat format
df = df.melt(
id_vars=df.columns[:4], var_name='YEAR', value_name='VALUE')
# Convert the 'VALUE' column into float numbers
df['VALUE'] = pd.to_numeric(df['VALUE'], downcast='float')
# Drop rows that have no indicators (it means they are not in
# the Excel file with the products of interest)
df.dropna(subset=['INDICATOR', 'PRODUCT'], inplace=True)
return df
РЕДАКТИРОВАТЬ 2: если это может помочь, это ошибка, которую я получаю при использовании EurostatNRG
класс в IPython:
[автозагрузка EurОшибка ostatNRG: обратная трассировка (последний вызов был последним): файл "C: \ Users \ CAPIZZIF \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ IPython \ extensions \ autoreload.py", строка 244, в проверке суперзагрузки (m, reload, self.old_objects) Файл "C: \ Users \ CAPIZZIF \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ IPython \ extensions \ autoreload.py", строка 394, в суперзагрузке update_generic (old_obj, new_obj)) Файл "C: \ Users \ CAPIZZIF \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ IPython \ extensions \ autoreload.py", строка 331, в обновлении update_generic (a, b) Файл "C: \ Users"\ CAPIZZIF \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ IPython \ extensions \ autoreload.py ", строка 279, в update_class, если (old_obj == new_obj) имеет значение True: файл" C: \ Users \ CAPIZZIF \ "AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ generic.py ", строка 1478, в ненулевой .format (self. class . name )) ValueError: Истинное значение DataFrame неоднозначно.Используйте a.empty, a.bool (), a.item (), a.any () или a.all ().]