Я работаю над набором данных titani c и наткнулся на препятствие.
Пожалуйста, помогите мне
Я пытаюсь закодировать две разные категориальные переменные. Я не могу. Я могу закодировать только одну из переменных.
Я хочу закодировать переменные «Sex» и «Embardked»
Любая помощь будет принята с благодарностью.
import numpy as np
import scipy as sp
import pandas as pd
import os
os.chdir('C:\Capstone')
df1 = pd.read_csv('gender_submission.csv')
df2 = pd.read_csv('train.csv')
#frames =[df1, df2]
#df3 = pd.concat(frames, join = 'outer', axis = 1)
#df3.to_csv('C:\Capstone\df3.csv')
X_Masters = df2.iloc[:,[2,4,5,10,11]]
X2 = X_Masters.dropna(subset = ["Embarked","Sex","Age","Pclass"])
X2 = X2.drop(columns =['Cabin'])
# Encoding the Independent Variable
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X2.Embarked = labelencoder_X.fit_transform(X2.Embarked)
onehotencoder = OneHotEncoder(categorical_features =[3])
X2 = onehotencoder.fit_transform(X2).toarray()
labelencoder_X2 = LabelEncoder()
onehotencoder2 = OneHotEncoder(categorical_features =[1])
X2.Sex = labelencoder_X2.fit_transform(X2.Sex)
"""
onehotencoder = OneHotEncoder(categorical_features =[2])
X2 = onehotencoder.fit_transform(X2).toarray()"""
----------