Есть ли эффективный способ написать этот код в python - PullRequest
2 голосов
/ 07 мая 2020

Я хочу написать этот код в python.

proc sql;
select count(distinct ID_1)
from DATA
where ID_1 = ID_2 and ID_type in ("11","23","46");
quit;

Я могу сделать это в три этапа

a = [x if x==y and z in ("11","23", "46") for x,y,z in zip(DATA['x'],DATA['y'],DATA['z'])]
a = [i for i in a if str(i) != 'nan']
len(np.unique(a))

Есть ли эффективный способ написать тот же код.

Ответы [ 2 ]

4 голосов
/ 07 мая 2020

Наиболее распространенные операции SQL можно легко перевести в python и pandas:

DATA[(DATA.ID_1 == DATA.ID_2) & (DATA.ID_type.isin(["11", "23", "46"]))].ID_1.nunique()

Подробнее см. введение в pandas.

0 голосов
/ 07 мая 2020

Другая фильтрация дублей с использованием метода query:

DATA.query('ID_1 == ID_2 and ID_type.isin(["11", "23", "46"])').ID_1.nunique()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...