В настоящее время я работаю над проблемой, которая заключается в рассмотрении ряда приобретенных деталей и определении того, добились ли мы успеха в наших усилиях по сокращению наших затрат.
Хотя у меня возникло несколько проблем.Поскольку наш покупатель может выбрать ввод заказа в любом заданном количестве единиц измерения (UOM), но не всегда помнит, чтобы ввести коэффициент пересчета, мы иногда сталкиваемся с проблемой, подобной той, которая показана на приведенном ниже кадре данных
df = pd.DataFrame(
[
['AABBCCDD','2014/2015','Q2',31737.60],
['AABBCCDD','2014/2015','Q2',31737.60],
['AABBCCDD','2014/2015','Q2',31737.60],
['AABBCCDD','2014/2015','Q3',89060.84],
['AABBCCDD','2015/2016','Q3',71586.00],
['AABBCCDD','2016/2017','Q3',89060.82],
['AABBCCDD','2017/2018','Q3',98564.40],
['AABBCCDD','2017/2018','Q3',110691.24],
['AABBCCDD','2017/2018','Q4',93390.00],
['AABBCCDD','2018/2019','Q2',90420.00],
['AABBCCDD','2018/2019','Q3',13.08],
['AABBCCDD','2018/2019','Q3',13.08]
],
columns=['PART_NO','FiscalYear','FiscalQuarter','Price'])
Как вы можете сказать, последние две покупки имеют значительно более низкую цену за единицу.Это связано с тем, что ранее мы покупали одну единицу полного листа товаров, тогда как теперь покупатель решает ввести заказ в квадратных дюймах материала
Теперь .. правильное действие - перейти к покупателю и получить его /ее исправить проблему.Я хотел бы получить обзор проблем заранее
Я попытался изменить данные
df_tab = pd.pivot_table(df, values='Price', index=['PART_NO'], columns=['FiscalYear','FiscalQuarter'], aggfunc=np.mean)
В результате следующее:
Естественно, у меня есть тысячи деталей, которые должны быть в этом кадре данных, с одной строкой или номером детали.Вероятно, он будет идти по дате, а не по кварталу, поэтому вышеприведенное приведено для упрощения.
Как мне поступить в следующих 2 сценариях
- Замена значений выброса нулевым значением, создающимстолбец в конце
- , указывающий, что значения выбросов присутствовали в данной строке данных.
------------- EDIT --------------
Я использовал сочетание приведенных ниже предложений и несколько других идей и пришел к следующему решению
# Imports
import pyodbc
import urllib
from sql import SQL
import pandas as pd
from sqlalchemy import create_engine
# Set variables
upperQuantile = 0.8
lowerQuantile = 0.2
# Connect to server / database
params = urllib.parse.quote_plus("Driver={SQL Server Native Client 11.0};Server=LT02670;Database=staging;Trusted_Connection=yes;")
engine = create_engine("mssql+pyodbc:///?odbc_connect=%s" % params)
# Create dataframe containing raw data
df = pd.read_sql(SQL(), engine)
# define upper and lower quartile ranges for outlier detection
def q1(x):
return x.quantile(lowerQuantile)
def q2(x):
return x.quantile(upperQuantile)
# define function for sorting out outliers
f = {'PO_UNIT_PRICE_CURRENT_CURRENCY': ['median', 'std', q1,q2]}
# group data and add function to data (adds columns median, std, q1 and q2)
dfgrp = df.groupby(['PART_NO']).agg(f).reset_index()
# Isolate part numbers in dataframe
dfgrpPart = pd.DataFrame(dfgrp['PART_NO'])
# Isolate value columns in dataframe
dfgrpStat = dfgrp['PO_UNIT_PRICE_CURRENT_CURRENCY']
# Join categorical data with values (this is done in order to eliminate multiindex caused py groupby function)
dfgrp = dfgrpPart.join(dfgrpStat)
# Add new columns to raw data extract
df = df.join(dfgrp.set_index('PART_NO'), on='PART_NO').reset_index()
# Remove outliers and 0-values
idx = df[df['PO_UNIT_PRICE_CURRENT_CURRENCY'] < df['q1']].index
df.drop(idx, inplace=True)
idx = df[df['PO_UNIT_PRICE_CURRENT_CURRENCY'] > df['q2']].index
df.drop(idx, inplace=True)
idx = df[df['PO_UNIT_PRICE_CURRENT_CURRENCY'] <= 0].index
df.drop(idx, inplace=True)
# Split dataframe into fiscal year chunks, and build lists of part numbers
df_14_15 = df[df['FiscalYear'].str.match('2014/2015')]['PART_NO'].to_list()
# df_15_16 = df[df['FiscalYear'].str.match('2015/2016')]['PART_NO'].to_list()
df_16_17 = df[df['FiscalYear'].str.match('2016/2017')]['PART_NO'].to_list()
# df_17_18 = df[df['FiscalYear'].str.match('2017/2018')]['PART_NO'].to_list()
df_18_19 = df[df['FiscalYear'].str.match('2018/2019')]['PART_NO'].to_list()
df_19_20 = df[df['FiscalYear'].str.match('2019/2020')]['PART_NO'].to_list()
# create one list of unique part numbers from multiple years, i have chosen only some years, as we rarely order the same parts six years running
partsList = list(set(df_14_15) & set(df_16_17) & set(df_18_19))
# Use list of part numbers to filter out raw data into output dataframe
dfAllYears = df[df['PART_NO'].isin(partsList)]
# write data to excel file for further analysis, this will overwrite existing file so be careful
dfAllYears.to_excel("output.xlsx", index=False, sheet_name='Data')
Это позволило мнепровести анализ и двигаться дальше.
Хотя я не совсем доволен кодом и считаю, что могу делать некоторые вещи излишне сложными и не использовать панд в полной мере