Как пометить кодирование 2-х панда данных? - PullRequest
0 голосов
/ 04 октября 2019

У меня есть 2 панды данных. Мне нужно, чтобы они имели одинаковую кодировку меток, потому что я хочу использовать их для машинного обучения.

dftrain.label.unique ()

array(['normal.', 'buffer_overflow.', 'loadmodule.', 'perl.', 'neptune.',
       'smurf.', 'guess_passwd.', 'pod.', 'teardrop.', 'portsweep.',
       'ipsweep.', 'land.', 'ftp_write.', 'back.', 'imap.', 'satan.',
       'phf.', 'nmap.', 'multihop.', 'warezmaster.', 'warezclient.',
       'spy.', 'rootkit.'], dtype=object)

dftest.label.unique ()

array(['normal.', 'snmpgetattack.', 'named.', 'xlock.', 'smurf.',
       'ipsweep.', 'multihop.', 'xsnoop.', 'sendmail.', 'guess_passwd.',
       'saint.', 'buffer_overflow.', 'portsweep.', 'pod.', 'apache2.',
       'phf.', 'udpstorm.', 'warezmaster.', 'perl.', 'satan.', 'xterm.',
       'mscan.', 'processtable.', 'ps.', 'nmap.', 'rootkit.', 'neptune.',
       'loadmodule.', 'imap.', 'back.', 'httptunnel.', 'worm.',
       'mailbomb.', 'ftp_write.', 'teardrop.', 'land.', 'sqlattack.',
       'snmpguess.'], dtype=object)

Как видите, в тестовом наборе есть метки, которых нет в наборе поездов.

  1. Как я могу кодировать эти метки, чтобы, например, значение normal было равно 1 в обоих кадрах данных?
  2. Что мне делать с метками из тестового набора, которых нет в наборе поездовЕсли я должен удалить их, как это сделать?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...