Question

Существует фрейм данных, который состоит из 14 столбцов, последний столбец является целевой меткой с целыми значениями = 0 или 1.

Я определил -

X = df.iloc [:, 1:13] ---- состоит из значений функций
Ly = df.iloc [:, - 1] ------ состоит из соответствующих меток

Оба имеют одинаковую длину по желанию, X - это кадр данных, состоящий из 13 столбцов, форма (159880, 13), y - тип массива с формой (159880,)

Но когда я выполняю train_test_split для X, y - функция не работает должным образом.

Ниже приведен простой код -

X_train, y_train, X_test, y_test = train_test_split (X, y, random_state = 0)

После этого разделения X_train и X_test имеют форму (119910,13). y_train имеет форму (39970,13), а y_test имеет форму (39970,)

Это странно, даже после определения параметра test_size результаты остаются прежними.

Пожалуйста, сообщите, что могло пойти не так.

import pandas as pd

импорт numpy как np из sklearn.tree import DecisionTreeClassifier из adspy_shared_utilities импортировать plot_feature_importances из sklearn.model_selection import train_test_split из sklearn.linear_model import LogisticRegression

def модель ():

df = pd.read_csv('train.csv', encoding = 'ISO-8859-1')
df = df[np.isfinite(df['compliance'])]
df = df.fillna(0)
df['compliance'] = df['compliance'].astype('int')
df = df.drop(['grafitti_status', 'violation_street_number','violation_street_name','violator_name',
              'inspector_name','mailing_address_str_name','mailing_address_str_number','payment_status',
              'compliance_detail', 'collection_status','payment_date','disposition','violation_description',
              'hearing_date','ticket_issued_date','mailing_address_str_name','city','state','country',
              'violation_street_name','agency_name','violation_code'], axis=1)
df['violation_zip_code'] = df['violation_zip_code'].replace(['ONTARIO, Canada',', Australia','M3C1L-7000'], 0)
df['zip_code'] = df['zip_code'].replace(['ONTARIO, Canada',', Australia','M3C1L-7000'], 0)
df['non_us_str_code'] = df['non_us_str_code'].replace(['ONTARIO, Canada',', Australia','M3C1L-7000'], 0)
df['violation_zip_code'] = pd.to_numeric(df['violation_zip_code'], errors='coerce')
df['zip_code'] = pd.to_numeric(df['zip_code'], errors='coerce')
df['non_us_str_code'] = pd.to_numeric(df['non_us_str_code'], errors='coerce')
#df.violation_zip_code = df.violation_zip_code.replace('-','', inplace=True)
df['violation_zip_code'] = np.nan_to_num(df['violation_zip_code'])
df['zip_code'] = np.nan_to_num(df['zip_code'])
df['non_us_str_code'] = np.nan_to_num(df['non_us_str_code'])
X = df.iloc[:,0:13]
y = df.iloc[:,-1]
X_train, y_train, X_test, y_test = train_test_split(X, y, random_state = 0)    
print(y_train.shape)

Mohammed Kashif · Answer 1 · 01 июля 2018

Вы перепутали результаты train_test_split, должно быть

X_train, X_test, y_train, y_test = train_test_split(X, y,random_state=0)

train_test_split не разделяет данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

train_test_split не разделяет данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов