Алгоритм случайного леса не работает для новых наборов данных - PullRequest
0 голосов
/ 12 февраля 2019

Я использовал алгоритм случайного леса в python для обучения моего набора данных1, и я получил точность 99%.Но когда я попытался с новым набором данных2 предсказать значения, я получаю неправильные значения.Я вручную проверил результаты для нового набора данных, и при сравнении с результатами прогноза точность очень низкая.

Ниже мой код:

   from IPython import get_ipython
   get_ipython().run_line_magic('matplotlib', 'inline')

   import numpy as np
   import pandas as pd
   import matplotlib.pyplot as plt
   plt.rcParams['figure.figsize']=(20.0,10.0)

   data = pd.read_csv('D:/Users/v477sjp/lpthw/Extract.csv', usecols=['CON_ID', 
   'CON_LEGACY_ID', 'CON_CREATE_TD',
   'CON_CREATE_LT', 'BUL_CSYS_ID_ORIG', 'BUL_CSYS_ID_CORIG',
   'BUL_CSYS_ID_DEST', 'BUL_CSYS_ID_CLEAR', 'TOP_ID', 'CON_DG_IN', 
   'PTP_ID', 'SMO_ID_1',
   'SMO_ID_8', 'LOB_ID', 'PRG_ID', 'PSG_ID', 'SMP_ID', 'COU_ISO_ID_ORIG',
   'COU_ISO_ID_DEST', 'CON_DELIV_DUE_DT', 'CON_DELIV_DUE_LT',
   'CON_POSTPONED_DT', 'CON_DELIV_PLAN_DT', 'CON_INTL_IN', 'PCE_NR',
   'CON_TC_PCE_QT', 'CON_TC_GRS_WT', 'CON_TC_VL', 'PCE_OC_LN', 
   'PCE_OC_WD','PCE_OC_HT', 'PCE_OC_VL', 'PCE_OC_WT', 'PCE_OA_LN', 
   'PCE_OA_WD','PCE_OA_HT', 'PCE_OA_VL', 'PCE_OA_WT', 'COS_EVENT_TD', 
   'COS_EVENT_LT',
   '((XSF_ID||XSS_ID)||XSG_ID)', 'BUL_CSYS_ID_OCC',  
   'PCE_NR.1', 'PCS_EVENT_TD', 'PCS_EVENT_LT',
   '((XSF_ID||XSS_ID)||XSG_ID).1', 'BUL_CSYS_ID_OCC.1', 
   'BUL_CSYS_ID_1', 'BUL_CSYS_ID_2', 'BUL_CSYS_ID_3',
   'BUL_CSYS_ID_4', 'BUL_CSYS_ID_5', 'BUL_CSYS_ID_6', 'BUL_CSYS_ID_7',
   'BUL_CSYS_ID_8', 'BUL_CSYS_ID_9', 'BUL_CSYS_ID_10', 'BUL_CSYS_ID_11',
   'BUL_CSYS_ID_12', 'BUL_CSYS_ID_13', 'BUL_CSYS_ID_14', 
   'BUL_CSYS_ID_15',
   'BUL_CSYS_ID_16', 'CON_TOT_SECT_NR', 'DELAY'] ) 

df = pd.DataFrame(data.values ,columns=data.columns)
for col_name in df.columns:

if(df[col_name].dtype == 'object' and col_name != 'DELAY'):
    df[col_name]= df[col_name].astype('category')
    df[col_name] = df[col_name].cat.codes

   target_attribute = df['DELAY']
   input_attribute=df.loc[:,'CON_ID':'CON_TOT_SECT_NR']

   from sklearn.model_selection import train_test_split
   X_train, X_test, y_train, y_test =               train_test_split(input_attribute,target_attribute, test_size=0.3)

   from sklearn.ensemble import RandomForestRegressor
   rf = RandomForestRegressor(n_estimators = 1000, random_state = 42)
   rf.fit(X_train, y_train);

   predictions = rf.predict(X_test)

   errors = abs(predictions - y_test)
   print(errors)

   print('Mean Absolute Error:', round(np.mean(errors), 2), 'result.')

   mape = 100 * (errors / y_test)

   accuracy = 100 - np.mean(mape)
   print('Accuracy:', round(accuracy, 2), '%.')

   data_new = pd.read_csv('D:/Users/v477sjp/lpthw/Extract-0401-              TestCurrentData-Null.csv', usecols=['CON_ID','CON_LEGACY_ID','CON_CREATE_TD','CON_CREATE_LT','BUL_CSYS_ID_ORIG',       'BUL_CSYS_ID_CORIG','BUL_CSYS_ID_DEST','BUL_CSYS_ID_CLEAR','TOP_ID', 
   'CON_DG_N', 'PTP_ID', 'SMO_ID_1',
   'SMO_ID_8', 'LOB_ID', 'PRG_ID', 'PSG_ID', 'SMP_ID', 'COU_ISO_ID_ORIG',
   'COU_ISO_ID_DEST', 'CON_DELIV_DUE_DT', 'CON_DELIV_DUE_LT',
   'CON_POSTPONED_DT', 'CON_DELIV_PLAN_DT', 'CON_INTL_IN', 'PCE_NR',
   'CON_TC_PCE_QT', 'CON_TC_GRS_WT', 'CON_TC_VL','PCE_OC_LN','PCE_OC_WD',
   'PCE_OC_HT', 'PCE_OC_VL', 'PCE_OC_WT', 'PCE_OA_LN', 'PCE_OA_WD',
   'PCE_OA_HT', 'PCE_OA_VL', 'PCE_OA_WT', 'COS_EVENT_TD', 'COS_EVENT_LT',
   '((XSF_ID||XSS_ID)||XSG_ID)', 'BUL_CSYS_ID_OCC',  
   'PCE_NR.1','PCS_EVENT_TD', 'PCS_EVENT_LT',
   '((XSF_ID||XSS_ID)||XSG_ID).1', 'BUL_CSYS_ID_OCC.1', 
   'BUL_CSYS_ID_1', 'BUL_CSYS_ID_2', 'BUL_CSYS_ID_3',
   'BUL_CSYS_ID_4', 'BUL_CSYS_ID_5', 'BUL_CSYS_ID_6', 'BUL_CSYS_ID_7',
   'BUL_CSYS_ID_8', 'BUL_CSYS_ID_9', 'BUL_CSYS_ID_10', 'BUL_CSYS_ID_11',
   'BUL_CSYS_ID_12', 'BUL_CSYS_ID_13', 'BUL_CSYS_ID_14','BUL_CSYS_ID_15',
   'BUL_CSYS_ID_16', 'CON_TOT_SECT_NR', 'DELAY'] ) 

   df_new = pd.DataFrame(data_new.values ,columns=data_new.columns)
   for col_name in df_new.columns:
       if(df_new[col_name].dtype == 'object' and col_name != 'DELAY' ):
           df_new[col_name]= df_new[col_name].astype('category')
           df_new[col_name] = df_new[col_name].cat.codes
   X_test_new=df_new.loc[:,'CON_ID':'CON_TOT_SECT_NR']
   y_pred_new = rf.predict(X_test_new)
   df_new['Delay_1']=y_pred_new
   df_new.to_csv('prediction_new.csv')

Результаты прогноза неверны дляновый набор данных и точность очень низкая.Точность данных 99%.Я должен получить отрицательные результаты для нового набора данных.Но все ценности, которые я получил, положительны.Пожалуйста, помогите

1 Ответ

0 голосов
/ 12 февраля 2019

Похоже, что алгоритм переоснащен в обучающий набор данных.Вот некоторые варианты, которые можно попробовать:
1) Использовать больший набор данных
2) уменьшить количество элементов / столбцов или выполнить некоторые функции проектирования
3) использовать регуляризацию
4) если набор данных не слишком велик, попробуйте уменьшитьколичество оценок в случае случайного леса.
5) играть с другими параметрами, такими как max_features, max_depth, min_samples_split, min_samples_leaf

Надеюсь, это поможет

...