Создание нового столбца Pandas на основе условий, но значения не генерируются - PullRequest
0 голосов
/ 04 марта 2019

Я пытаюсь выполнить простую задачу: создать новый столбец в кадре данных Pandas на основе условий других столбцов.Я просматривал другие посты (например, этот очень популярный , но также и другие, которые использовали разные подходы), но безуспешно.

Проблема, с которой я столкнулся сейчас, заключается в том, что только last значение, определенное в моей функции, возвращается в новом столбце

Например:

У меня есть следующий столбец:

x
1
2
3

Я хочу добавитьновый столбец меток таким образом:

x     size
1     Small
2     Medium
3     Large

Вот код самой последней попытки:

import pandas as pd
import numpy as np

df = pd.read_csv('blah.csv')

def size (row):
    if row['rQ7'] == 1:
        return 'Small'
    if row['rQ7'] == 2:
        return 'Medium'
    if row['rQ7'] == 3:
        return 'Large'
    return -99 

'''
I have also tried breaking this into 
else: 
    return -99 
but it doesn't work. '''

df['size'] = df.apply (lambda row: size (row), axis=1)

Теперь, когда я не получаю никаких ошибок, когда я применяю функцию кДля фрейма данных он возвращает только последнее значение, то есть -99:

x    size
1    -99
2    -99
3    -99

Это также верно для других функций, которые я пробовал, и когда я пытался использовать df.loc[], Python не копировал любые значений для нового столбца, хотя ошибок не было.

Я растерялся и растерялся: для меня, и, основываясь на других примерах, которые я пробовал, представляется код должно работать.

Любая помощь очень ценится.

Ответы [ 2 ]

0 голосов
/ 04 марта 2019

Вы можете попробовать более простую версию:

import pandas as pd
import numpy as np

df = pd.read_csv('blah.csv')

def size(x):
    if x == 1:
        return 'Small'
    if x == 2:
        return 'Medium'
    if x == 3:
        return 'Large'
    return -99 

# maybe your row type is"string"
df['size'] = df['rQ7'].apply (lambda x: size(int(x))) 
0 голосов
/ 04 марта 2019

Вы можете использовать numpy.select():

df['col']=np.select([df.x.eq(1),df.x.eq(2),df.x.eq(3)],['small','medium','large'],\
                                                                  'something')

, вы можете заменить 'something' на значение, которое должно появляться, когда условия не выполняются.

print(df)

   x    size
0  1   small
1  2  medium
2  3   large
...