Pandas: отфильтровать 14000 строк из фрейма данных, состоящего из 300000 строк. - PullRequest
0 голосов
/ 26 мая 2020

У меня есть фрейм данных df1, состоящий из 14000 человек. У меня есть еще один фрейм данных df2, состоящий из 300000 данных идентификаторов и других атрибутов. Мне нужно сопоставить 14000 идентификаторов df1 с 300000 идентификаторов df2 и извлечь всю строку из этих 14000 идентификаторов.

df1 personUuid
0   99afae32-1486-47db-825e-6695f742eb86
1   bb22ca94-1f4b-435c-98ff-bd6f02a6b42b
2   ecfdc560-cc97-4525-8d1e-e3536793ef6e
3   8fbe1e4f-ae1e-4949-afd9-b120f6ae3762
4   d83dc0c4-26e6-4126-926d-7b84913bca13
... ...
14367   23592455-47a2-47ef-9d21-a283ae50988d
14368   1adecd7e-a0c2-4c35-bef1-75569f3b57fe
14369   e96f6eb4-d823-47b4-bd03-755e8f685e8f
14370   c87156e2-9610-40f4-a75a-17435d9fa91f
14371   70f08fd1-c595-4d01-886d-ed586a77c1d1


personUuid  firstName   middleName  lastName    emails  urls    locations   currentTitles   currentCompanies    education   ... count_currentTitles fullName    li_clean    gh_clean    tw_clean    fb_clean    email_clean email_clean1    email_clean2    email_clean3
0   ab92fa98-2427-461d-87ac-31a440b6e1ae    
1   658c57b9-457a-4e97-8b1c-10ab45655518    
2   7da5a858-3c20-46c0-b728-23e64352094d    
3   9c14f2b6-a81a-49af-85d4-d4cf76001f07    

Точно так же у меня есть второй фрейм данных с идентификаторами лиц 300000 и такими атрибутами, как полное имя , электронная почта, местоположение и т. д. c.

необходимо сопоставить эти 14K идентификаторы с 300 K и отображать все атрибуты только 14K.

1 Ответ

0 голосов
/ 26 мая 2020

Вам нужно выполнить слияние с внутренним соединением, как показано ниже:

df1['personUuid'] = df1['personUuid'].str.strip()
df2['personUuid'] = df2['personUuid'].str.strip()
df = pd.merge(left=df1, right=df2, how='inner', on=['personUuid'])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...