У меня есть набор данных и столбцы Титаника в кадре данных, которые я хотел бы использовать: «Запущено» и «Пол».
df['Embarked']
и df['Sex']
имеют уникальное значение: Embarked['C','Q','S']
и Sex['male','female']
Что я хотел бы сделать, это создать список, как показано ниже:
[['S','female'],['S','male'],['C','female'],['c','male'],['Q','female'],['Q','male']]
Мне нужна уникальная комбинация значений в формате списка, чтобы я мог перейти к OrdinalEncoder
, чтобы соответствовать.
Scikit Learn OrdinalEncoder
пример:
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder()
X = [['Male', 1], ['Female', 3], ['Female', 2]]
enc.fit(X)
enc.categories_
enc.transform([['Female', 3], ['Male', 1],['Female',2],['Male',3]])
преобразование кодера занимает только list