У меня есть два кадра данных (df1 и df2). У них обоих есть столбец «Идентификатор класса», df1 содержит 66 000 записей, а df2 - 60 000 записей. Я хочу проверить, что все значения Class ID в df2 принадлежат df1. Значения Class ID не являются уникальными (есть и некоторые другие столбцы).
Я использую этот код:
print(df1['Class ID'].isin(df2['Class ID']).value_counts())
Это дает результат:
True 59,800
False 200
Однако я извлек все идентификаторы классов, обозначенные как «False», и сравнил их с vimdiff в bash. Все идентификаторы классов, обозначенные как «False», присутствуют в df2. Я прочитал в документации Pandas, что требуется соответствие индекса и метки столбца. Поскольку количество записей в обоих кадрах данных различно, индекс не совпадает, поэтому этот результат отображается. Как решить эту проблему? Любой другой эффективный способ?