У меня есть 2 панды данных. Мне нужно, чтобы они имели одинаковую кодировку меток, потому что я хочу использовать их для машинного обучения.
dftrain.label.unique ()
array(['normal.', 'buffer_overflow.', 'loadmodule.', 'perl.', 'neptune.',
'smurf.', 'guess_passwd.', 'pod.', 'teardrop.', 'portsweep.',
'ipsweep.', 'land.', 'ftp_write.', 'back.', 'imap.', 'satan.',
'phf.', 'nmap.', 'multihop.', 'warezmaster.', 'warezclient.',
'spy.', 'rootkit.'], dtype=object)
dftest.label.unique ()
array(['normal.', 'snmpgetattack.', 'named.', 'xlock.', 'smurf.',
'ipsweep.', 'multihop.', 'xsnoop.', 'sendmail.', 'guess_passwd.',
'saint.', 'buffer_overflow.', 'portsweep.', 'pod.', 'apache2.',
'phf.', 'udpstorm.', 'warezmaster.', 'perl.', 'satan.', 'xterm.',
'mscan.', 'processtable.', 'ps.', 'nmap.', 'rootkit.', 'neptune.',
'loadmodule.', 'imap.', 'back.', 'httptunnel.', 'worm.',
'mailbomb.', 'ftp_write.', 'teardrop.', 'land.', 'sqlattack.',
'snmpguess.'], dtype=object)
Как видите, в тестовом наборе есть метки, которых нет в наборе поездов.
- Как я могу кодировать эти метки, чтобы, например, значение normal было равно 1 в обоих кадрах данных?
- Что мне делать с метками из тестового набора, которых нет в наборе поездовЕсли я должен удалить их, как это сделать?