Ошибка типа с Python: str и int - PullRequest
       25

Ошибка типа с Python: str и int

0 голосов
/ 25 сентября 2018

Я получил эту ошибку при попытке скомпилировать мой код.Я извлек данные из файла xlsx и создал фрейм данных, заменил нулевые значения на 0, преобразовал все значения в sting, чтобы иметь возможность разброса, и когда я попытался показать результаты своей линейной регрессии, я получил эту ошибку.

 TypeError: unsupported operand type(s) for /: 'str' and 'int'

и это код, который я сделал до сих пор

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
def predict(x):
return slope * x + intercept
from scipy import stats
xlsxfile = pd.ExcelFile("C:\\Users\\AchourAh\\Desktop\\PL14_IPC_03_09_2018_SP_Level.xlsx") 
data = xlsxfile.parse('Sheet1', index_col = None, header = None) 
data1 = data.fillna(0) #Replace null values of the whole dataset with 0
data1 = data1.astype(str)
print(data1)
X = data1.iloc[0:len(data1),1] 
print(X)
Y = data1.iloc[0:len(data1),2] 
print(Y)
axes = plt.axes()
axes.grid() 
plt.scatter(X,Y)     
slope, intercept, r_value, p_value, std_err = stats.linregress(X, Y)

Чтобы заметить, что я новичок в этом.Последняя строка вызывает ошибку. Это первые столбцы COP COR и PAUS информационного кадра, к которым я пытаюсь применить линейную регрессию:

 0            PP   SP000045856 COP COR  SP000045856 PAUS   
 1          201723                    0              2000   
 2          201724                12560             40060   
 3          201725               -17760             15040   
 4          201726                -5840             16960   
 5          201727                10600             4480   
 6          201728                    0             14700   
 7          201729                 4760             46820  

... до строки 27

1 Ответ

0 голосов
/ 25 сентября 2018

Данные в вашем файле Excel содержат информацию заголовка в первой строке, поэтому установка header=None является причиной того, что в ваших данных есть строковые значения вместо того, чтобы указывать их как имена столбцов.
Если вы удаляете заголовок kwarg

xlsxfile = pd.ExcelFile("C:\\Users\\AchourAh\\Desktop\\PL14_IPC_03_09_2018_SP_Level.xlsx") 
data = xlsxfile.parse('Sheet1', index_col = None)

все должно работать, и вы должны получить кадр данных, подобный следующему:

data

   0      PP  SP000045856 COP COR  SP000045856 PAUS
0  1  201723                    0              2000
1  2  201724                12560             40060
2  3  201725               -17760             15040
3  4  201726                -5840             16960
4  5  201727                10600              4480
5  6  201728                    0             14700
6  7  201729                 4760             46820

Однако вы можете сделать то же самое, даже немного короче, напрямую используя read_excel -функция панд:

data = pd.read_excel('C:\\Users\\AchourAh\\Desktop\\PL14_IPC_03_09_2018_SP_Level.xlsx', 'Sheet1')

Ваш точечный график может быть выполнен, например, как

data.plot('SP000045856 COP COR', 'SP000045856 PAUS', 'scatter')

или, возможно, лучше читаемым, но идентичным:

data.plot.scatter('SP000045856 COP COR', 'SP000045856 PAUS')

Илинейная регрессия может быть сделана как

slope, intercept, r_value, p_value, std_err = stats.linregress(data['SP000045856 COP COR'], data['SP000045856 PAUS'])
...