Как работает слияние фреймов Python с пандами в этом случае? - PullRequest
0 голосов
/ 11 мая 2019

Я пытаюсь объединить 2 таблицы Excel с помощью панд.
, но при внутреннем объединении пропускается 1 запись, которая находится в обоих кадрах данных.и при слиянии слева он дает половину данных.

df1=pd.read_excel('output_may_tv.xlsx',sheet_name='Sheet2',index_col=None, header=None,names=['url'])

df2=pd.read_excel('output_may_2.xlsx',sheet_name='metadata',index_col=None, header=None,names=['title','synopsis','rs','rh','bs','bh','url','n','e','site'])


result1=df1.merge(df2,on='url')

изначально, result1 дает на 1 URL меньше после выполнения

result1=df1.merge(df2,how='left')

, он показывает URL, но в этой объединенной строке отсутствуют данные других столбцов

, пожалуйста, кто-нибудь объяснитмне, как это решить.

1 Ответ

0 голосов
/ 13 мая 2019

Являются ли URL, которые отсутствуют, точно такими же, или их разница в заглавных и не заглавных буквах или пробелах?Преобразуйте столбец в верхний регистр и удалите пробелы:

df1['url'] = df1['url'].str.upper().str.strip()

И сделайте то же самое для df2.Затем попробуйте снова выполнить слияние

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...