Как выбрать столбцы данных и целевые столбцы в кадре данных для test_train_split? - PullRequest
0 голосов
/ 04 ноября 2019

Я пытаюсь настроить test_train_split с данными, которые я прочитал из csv в кадр данных pandas. Книга, которую я читаю, говорит, что я должен разделить на x_train как данные и y_train как цель, но как я могу определить, какой столбец является целью, а какие столбцы являются данными? Пока у меня есть следующее

import pandas as pd
from sklearn.model_selection import train_test_split
Data = pd.read_csv("Data.csv")

Я прочитал, чтобы выполнить разбиение следующим образом, однако следующее использовало связку, где data и target уже были определены:

X_train, X_test, y_train, y_test = train_test_split(businessleisure_data['data'],
                                                    iris_dataset['target'], random_state=0)

1 Ответ

1 голос
/ 04 ноября 2019

Вы можете сделать это так:

Data = pd.read_csv("Data.csv")    
X = Data.drop(['name of the target column'],axis=1).values
y = Data['name of the target column'].values
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

В большинстве случаев целевой переменной является последний столбец набора данных, поэтому вы также можете попробовать это:

Data = pd.read_csv("Data.csv")
X = Data.iloc[:,:-1]
y = Data.iloc[:,-1]
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
...