Вопрос разработки данных Категоризация данных в Python - PullRequest
0 голосов
/ 14 октября 2019

У меня есть категориальная переменная «легальные страны». Сейчас в нем 24 класса, и я хочу сделать это 6.

Идея состоит в том, чтобы иметь (1) США (2) Канаду (3) Индию (4) Пакистан (5) Другие (6) NaN -- как «Остальное». Код отлично работает с первыми 5 классами. Тем не менее, я намерен изменить все «NaN» на «Остальное», но это не работает. Не могли бы вы помочь мне исправить код? Спасибо!

# categorize country and legal country 
def birth_country(x):
    rs=[]
    country_list=['United States of America', 'Canada', 'India', 'Pakistan'] 
    missing = ['NaN']
    for item in df['BIRTH_NATIONALITY']:
            if item in country_list:
                rs.append(item)
            elif item in missing:
                rs.append('Else')
            else:
                rs.append('Others')
    return rs
...