Pandas dataframe, ValueError: несоответствие формы: объекты не могут быть переданы в одну форму - PullRequest
0 голосов
/ 11 сентября 2018

У меня есть этот код, который используется для отслеживания того, насколько поздно были конкретные поставки, и как поздно они были. Я классифицировал их так: ранние поставки, своевременные и поздние поставки. Я могу построить график этих результатов, если я включу каждый номер материала. Однако, когда я определяю номер материала, я сталкиваюсь с ошибкой (перечисленной ниже), я также предоставляю то, что точно напечатано в терминале. Похоже, что в фрейме данных созданы две строки, помеченные разными вещами, и отсчитывается отсюда, поэтому я не могу построить график, потому что есть два значения, так как я могу исправить свой код, чтобы просто извлечь «число отсчетов» и использовать это число, чтобы график гистограммы

import matplotlib.pyplot as plt; plt.rcdefaults()
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd


Material= 'Material'
DELIVERY_DATE = 'Delivery Date'
DESIRED_DATE = 'source desired delivery date'
DELAYED_DAYS = 'Delayed Days'



StartYear = input("Start Year? ")
StartYear = int(StartYear)
EndYear = input("End Year? ")
EndYear = int(EndYear) 




DELIVERY_DATE = 'Delivery Date'
DESIRED_DATE = 'source desired delivery date'
DELAYED_DAYS = 'Delayed Days'


df = pd.read_csv('otdo.csv')

df['Delivery Date'] = pd.to_datetime(df['Delivery Date'], format='%m/%d/%Y')
df['source desired delivery date'] = pd.to_datetime(df['source desired delivery date'], format='%m/%d/%Y')


late_threshold = pd.Timedelta(days=0)
late_threshold2 = pd.Timedelta(days=10)

df[DELIVERY_DATE] = pd.to_datetime(df[DELIVERY_DATE])
df[DESIRED_DATE] = pd.to_datetime(df[DESIRED_DATE])
df[DELAYED_DAYS] = df[DELIVERY_DATE] - df[DESIRED_DATE]


df2 = df[(df['Delivery Date'].dt.year >= int(StartYear)) & (df['Delivery Date'].dt.year <= int(EndYear))]



df3 = df2[ df2[DELAYED_DAYS] > late_threshold] 
df3 =  df3[late_threshold2 > df3[DELAYED_DAYS]]
df3 = df3.loc[df['Material'].str.contains('20080810', na=False)]




df4 = df2[ df2[DELAYED_DAYS] > late_threshold2] 
df4 = df4.loc[df['Material'].str.contains('20080810', na=False)]


df5 = df2[df2[DELAYED_DAYS] <= late_threshold] 
df5 = df5.loc[df['Material'].str.contains('20080810', na=False)]


df6 = df2.loc[df['Material'].str.contains('20080810', na=False)]




df7 = df2[ df2[DELAYED_DAYS] > late_threshold] 
df7 =  df7[late_threshold2 > df7[DELAYED_DAYS]]



df8 = df2[ df2[DELAYED_DAYS] > late_threshold2] 


df9 = df2[df2[DELAYED_DAYS] <= late_threshold] 


zero = df2.count() 
zero2 = df3.count()
zero3 = df4.count() 
zero4 = df5.count() 
zero5 = df7.count()
zero7 = df9.count() 

hey = zero7.iloc[1:1]
print(hey)
print(zero7)

objects = ('1', '2', '3')
y_pos = np.arange(len(objects))
values = [zero5, zero4, zero7]

plt.bar(y_pos, values, align='center', alpha=0.2)
plt.xticks(y_pos, objects)

plt.show()

Вот что вырабатывается в терминале:

Start Year? 2014
End Year? 2018
Series([], dtype: int64)
Material        4936
Delayed Days    4936
dtype: int64
Traceback (most recent call last):
  File "C:\Users\khalha\eclipse-workspace\Test3\Test3\gagada.py", line 118, in <module>
    plt.bar(y_pos, values, align='center', alpha=0.2)
  File "C:\Users\khalha\AppData\Local\Programs\Python\Python37\lib\site-packages\matplotlib\pyplot.py", line 2770, in bar
    ret = ax.bar(*args, **kwargs)
  File "C:\Users\khalha\AppData\Local\Programs\Python\Python37\lib\site-packages\matplotlib\__init__.py", line 1855, in inner
    return func(ax, *args, **kwargs)
  File "C:\Users\khalha\AppData\Local\Programs\Python\Python37\lib\site-packages\matplotlib\axes\_axes.py", line 2233, in bar
    np.atleast_1d(x), height, width, y, linewidth)
  File "C:\Users\khalha\AppData\Local\Programs\Python\Python37\lib\site-packages\numpy\lib\stride_tricks.py", line 249, in broadcast_arrays
    shape = _broadcast_shape(*args)
  File "C:\Users\khalha\AppData\Local\Programs\Python\Python37\lib\site-packages\numpy\lib\stride_tricks.py", line 184, in _broadcast_shape
    b = np.broadcast(*args[:32])
ValueError: shape mismatch: objects cannot be broadcast to a single shape

CSV-файл:

enter image description here

Material    Delivery Date   source desired delivery date
3334678 12/31/2014  12/31/2014
233433  12/31/2014  12/31/2014
3434343 1/5/2015    1/5/2015
3334567 1/5/2015    1/6/2015
546456  2/11/2015   2/21/2015
221295  4/10/2015   4/10/2015

1 Ответ

0 голосов
/ 11 сентября 2018

В сообщении об ошибке говорится, что в

plt.bar(y_pos, values...

matplotlib ожидает высоту столбца 1D-массива, но с values вы предоставляете список фреймов данных, которые не могут быть переданы в простой 1D-массив.

Вы должны использовать список скаляров вместо этого, чтобы сделать эту работу.

1009 * Е.Г. *

values = [zero5.Material, zero4.Material, zero7.Material]

если я правильно понимаю вашу модель данных.
Обратите внимание, что если вы хотите построить два массива, то есть по два столбца в каждом y_pos для сравнения, это делается путем вызова plt.bar(...) два раза. Сначала с одним массивом, затем с другим, добавляя некоторое смещение по y к массиву y-pos. См. this для примера.

Однако - я бы порекомендовал вам создать не слишком много дополнительных фреймов данных, полученных из вашего csv-импорта, но один отдельный фрейм данных, который содержит логические результаты, зависящие от вашего порогового времени, предположительно уже приведенные к типу int для вычисления сумма, например:

df2['thresh1'] = (df2[DELAYED_DAYS] > late_threshold).astype(int)
df2['thresh2'] = (df2[DELAYED_DAYS] > late_threshold).astype(int)

Это дает вам возможность рассчитать в одну строку

zeros = df2.sum()

что вы назвали zeros.
Тогда первый тест может быть

zeros.plot(kind='bar')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...