Отображение диапазонов значений в панде - PullRequest
0 голосов
/ 30 апреля 2018

Прошу прощения, если об этом уже спрашивали, но я выглядела безрезультатно.

import pandas as pd    
import numpy as np    
df = pd.DataFrame(data = np.random.randint(1,10,10),columns=['a'])    

   a
0  7
1  8
2  8
3  3
4  1
5  1
6  2
7  8
8  6
9  6

Я хотел бы создать новый столбец b, который отображает несколько значений a согласно некоторому правилу, скажем, a = [1,2,3] равно 1, a = [4,5,6, 7] равно 2, a = [8,9,10] равно 3. Однозначное сопоставление мне ясно, но что если я хочу отобразить по списку значений или диапазону?

Я придерживался этих принципов ...

df['b'] = df['a'].map({[1,2,3]:1,range(4,7):2,[8,9,10]:3})

Ответы [ 2 ]

0 голосов
/ 30 апреля 2018

Есть несколько альтернатив.

Панды через pd.cut / NumPy через np.digitize

Вы можете создать список границ, а затем использовать специальные библиотечные функции. Это описано в @ решении ЭдЧума , а также в этом ответе .

NumPy через np.select

df = pd.DataFrame(data=np.random.randint(1,10,10), columns=['a'])

criteria = [df['a'].between(1, 3), df['a'].between(4, 7), df['a'].between(8, 10)]
values = [1, 2, 3]

df['b'] = np.select(criteria, values, 0)

Элементы criteria являются логическими рядами, поэтому для списков значений можно использовать df['a'].isin([1, 3]) и т. Д.

Словарь сопоставления с помощью range

d = {range(1, 4): 1, range(4, 8): 2, range(8, 11): 3}

df['c'] = df['a'].apply(lambda x: next((v for k, v in d.items() if x in k), 0))

print(df)

   a  b  c
0  1  1  1
1  7  2  2
2  5  2  2
3  1  1  1
4  3  1  1
5  5  2  2
6  4  2  2
7  4  2  2
8  9  3  3
9  3  1  1
0 голосов
/ 30 апреля 2018

IIUC вы можете использовать cut для достижения этого:

In[33]:
pd.cut(df['a'], bins=[0,3,7,11], right=True, labels=False)+1

Out[33]: 
0    2
1    3
2    3
3    1
4    1
5    1
6    1
7    3
8    2
9    2

Здесь вы передадите значения отсечения в cut, и это будет классифицировать ваши значения, передав labels=False, что даст им порядковое значение (начиная с нуля), поэтому вы просто +1 им

Здесь вы можете увидеть, как были рассчитаны срезы:

In[34]:
pd.cut(df['a'], bins=[0,3,7,11], right=True)

Out[34]: 
0     (3, 7]
1    (7, 11]
2    (7, 11]
3     (0, 3]
4     (0, 3]
5     (0, 3]
6     (0, 3]
7    (7, 11]
8     (3, 7]
9     (3, 7]
Name: a, dtype: category
Categories (3, interval[int64]): [(0, 3] < (3, 7] < (7, 11]]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...