Итак, я создал три фрейма данных из 3 отдельных файлов (csv и xls). Я хочу объединить три из них в один фрейм данных, состоящий из 20 столбцов и 15 строк. Мне удалось успешно сделать это, используя код внизу (это последняя часть кода, в которой я начал объединять все существующие фреймы данных, которые я создал). Однако происходит странная вещь, когда страна с самым высоким рейтингом дублируется 3 раза, и есть два значения из 15 столбцов, которые должны присутствовать, но отсутствуют, и я не совсем уверен, почему.
Я установил одинаковый индекс в каждом фрейме данных!
По сути, моя проблема заключается в том, что после объединения фреймов данных появляются повторяющиеся значения, а другие значения удаляются.
Если бы кто-нибудь мог объяснить мне механику, почему возникает эта проблема, я был бы очень признателен:)
***merged = pd.merge(pd.merge(df_ScimEn,df_energy[ListEnergy],left_index=True,right_index=True),df_GDP[ListOfGDP],left_index=True,right_index=True))
merged = merged[ListOfColumns]
merged = merged.sort_values('Rank')
merged = merged[merged['Rank']<16]
final = pd.DataFrame(merged)***
***Example: a shorter version of what is happening
expected:
A B C D J K L R
1 x y z j a e c d
2 b c d l a l c d
3 j k e k a m c d
4 d k c k a n h d
5 d k j l a h c d
generated after I run the code above: (the 1 is repeated and the 3 is missing)
A B C D J K L R
1 x y z j a b c d
1 x y z j a b c d
1 x y z j a b c d
4 d k c k a b h d
5 d k j l a h c d***
***Example Input
df1 = {[1:A,B,C],[2:A,B,C],[3:A,B,C],[4:A,B,C],[5:A,B,C]}
df2 = {[1:J,K,L,M],[2:J,K,L,M],[3:J,K,L,M],[4:J,K,L,M],[5:J,K,L,M]}
df3 = {[1:R,E,T],[2:R,E,T],[3:R,E,T],[4:R,E,T],[5:R,E,T]}
So the indexes are all the same for each data frame and then some have a
different number of rows and different number of columns but I've edited them
to form the final data frame. and each capital letter stands for a column
name with different values for each column***