sklearn MinMaxScaler - ValueError: ожидаемый 2D-массив, вместо него получен 1D-массив - данные как объекты серии - PullRequest
0 голосов
/ 01 августа 2020

Я хочу использовать MinMaxScaler из sklearn для масштабирования данных тестирования и обучения перед их анализом.

Я следовал инструкциям (https://mc.ai/an-introduction-on-time-series-forecasting-with-simple-neura-networks-lstm/), но Я получаю сообщение об ошибке ValueError: Expected 2D array, got 1D array instead.

Я попытался посмотреть Печать прогноза ValueError: ожидаемый 2D-массив, вместо него 1D-массив , но я получаю сообщение об ошибке, если пытаюсь train = train.reshape(-1, 1) или test = test.reshape(-1, 1), потому что они являются сериями (сообщение об ошибке AttributeError: 'Series' object has no attribute 'reshape')

Как мне лучше решить эту проблему?

# Import libraries 
import pandas as pd 
from sklearn.preprocessing import MinMaxScaler 

# Create MWE dataset 
data = [['1981-11-03', 510], ['1982-11-03', 540], ['1983-11-03', 480],
   ['1984-11-03', 490], ['1985-11-03', 492], ['1986-11-03', 380],
   ['1987-11-03', 440], ['1988-11-03', 640], ['1989-11-03', 560], 
   ['1990-11-03', 660], ['1991-11-03', 610], ['1992-11-03', 480]] 

df = pd.DataFrame(data, columns = ['Date', 'Tickets']) 

# Set 'Date' to datetime data type 
df['Date'] = pd.to_datetime(df['Date'])

# Set 'Date to index   
df = df.set_index(['Date'], drop=True)

# Split dataset into train and test  
split_date = pd.Timestamp('1989-11-03')
df =  df['Tickets']
train = df.loc[:split_date]
test = df.loc[split_date:]

# Scale train and test data 
scaler = MinMaxScaler(feature_range=(-1, 1))
train_sc = scaler.fit_transform(train)
test_sc = scaler.transform(test)

X_train = train_sc[:-1]
y_train = train_sc[1:]
X_test = test_sc[:-1]
y_test = test_sc[1:]

# ERROR MESSAGE 
  ValueError: Expected 2D array, got 1D array instead:
  array=[510. 540. 480. 490. 492. 380. 440. 640. 560.].
  Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

1 Ответ

0 голосов
/ 01 августа 2020

Строка

df =  df['Tickets']

преобразует ваши данные в pd.Series.

Если вы хотите получить вместо этого фрейм данных, вы можете использовать

df =  df[['Tickets']]

что должно решить вашу проблему; кадры данных могут быть напрямую введены в функцию подгонки масштабатора без необходимости изменения формы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...