Я искал, как кодировать несколько столбцов с длинными или короткими текстами, но я не мог найти какие-либо хорошие решения. Вот пример из моего набора данных:
IP Country Domain Attack Signature Thread
0.0.0.0.0 US somedomain.net compromized site 8787tgd9347343dex yes
1.1.1.1.1 US otherdomain.net trojan 74384399rfg99737h1 yes
До сих пор я пробовал LabelEncoder
и OneHotEncoder
с sklearn
, но они не работали. Любая обратная связь, помощь или направление очень ценится.
EDIT
Я подумал, что дам больше подробностей о том, чего я пытаюсь достичь
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
df = pd.read_csv("export.csv", sep=",")
labelencoder = LabelEncoder()
def encoder(x = len(df.columns)):
for i in range(x):
df.iloc[:, i] = labelencoder.fit_transform(df.iloc[:, i])
encoder()
Теперь у меня есть фрейм данных со следующим:
Однако это не похоже на правильный способ сделать это.
Спасибо