Добавление столбца Pandas DataFrame на основе другого столбца - PullRequest
1 голос
/ 13 апреля 2019

У меня есть Pandas DataFrame, который выглядит следующим образом:

| Index | Value        |
|-------|--------------|
| 1     | [1, 12, 123] |
| 2     | [12, 123, 1] |
| 3     | [123, 12, 1] |

и Я хочу добавить третий столбец со списком длин элементов массива :

| Index | Value        | Expected_value |
|-------|--------------|----------------|
| 1     | [1, 12, 123] | [1, 2, 3]      |
| 2     | [12, 123, 1] | [2, 3, 1]      |
| 3     | [123, 12, 1] | [3, 2, 1]      |

Я пытался использовать лямбда-функцию Python и отображение немного так:

dataframe["Expected_value"] = dataframe.value.map(lambda x: len(str(x)))

, но вместо списка я получил сумму этих длин :

| Index | Value        | Expected_value |
|-------|--------------|----------------|
| 1     | [1, 12, 123] | 6              |
| 2     | [12, 123, 1] | 6              |
| 3     | [123, 12, 1] | 6              |

Ответы [ 2 ]

3 голосов
/ 13 апреля 2019

Вы можете использовать list comprehension с map:

dataframe["Expected_value"] = dataframe.Value.map(lambda x: [len(str(y)) for y in x])

Или понимание вложенного списка:

dataframe["Expected_value"] = [[len(str(y)) for y in x] for x in dataframe.Value]

Также возможна альтернатива для получения длин целых чисел:

import math
dataframe["Expected_value"] = [[int(math.log10(y))+1 for y in x] for x in dataframe.Value]

print (dataframe)
   Index         Value Expected_value
0      1  [1, 12, 123]      [1, 2, 3]
1      2  [12, 123, 1]      [2, 3, 1]
2      3  [123, 12, 1]      [3, 2, 1]
1 голос
/ 13 апреля 2019

Используйте понимание списка:

[[len(str(y)) for y in x] for x in df['Value'].tolist()]
# [[1, 2, 3], [2, 3, 1], [3, 2, 1]]

df['Expected_value'] = [[len(str(y)) for y in x] for x in df['Value'].tolist()]
df

   Index         Value Expected_value
0      1  [1, 12, 123]      [1, 2, 3]
1      2  [12, 123, 1]      [2, 3, 1]
2      3  [123, 12, 1]      [3, 2, 1]

Если вам нужно обработать отсутствующие данные,

def foo(x):
    try:
       return [len(str(y)) for y in x]
    except TypeError:
        return np.nan

df['Expected_value'] = [foo(x) for x in df['Value'].tolist()]
df

   Index         Value Expected_value
0      1  [1, 12, 123]      [1, 2, 3]
1      2  [12, 123, 1]      [2, 3, 1]
2      3  [123, 12, 1]      [3, 2, 1]

Это, вероятно, лучший показатель производительности при работе с данными типа объекта.Подробнее на Для петель с пандами - Когда мне все равно? .


Другое решение с pd.DataFrame, applymap и agg:

pd.DataFrame(df['Value'].tolist()).astype(str).applymap(len).agg(list, axis=1)

0    [1, 2, 3]
1    [2, 3, 1]
2    [3, 2, 1]
dtype: object
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...