Очистите ваши данные
Вторая часть вашего вопроса касается сравнения разнородных значений в ваших данных. Проще всего было бы стандартизировать названия вашей страны в вашем списке всех стран к значениям в ваших данных. Гораздо проще очистить меньший, более ограниченный список стран для повторного использования с вашим большим набором входных данных.
Выполните следующие действия, как только в списке стран есть значения, которые можно сравнить с вашими входными данными.
clean_data стандартизировал значения для всех строчных букв и поместил их в набор , который автоматически дает вам уникальные значения.
seen_countires автоматически будет создается с помощью clean_data при предоставлении столбца вашей страны из набора входных данных.
unseen_countries - это просто набор всех стран в country_list - seen_countries set.
#!/usr/bin/env python
import pandas as pd
def clearn_data(x):
retval = set([v.lower() for v in x])
return retval
if __name__ == "__main__":
country_data = ["C", "D", "E", "F", "a", "A"]
country_list = ["a", "b", "c", "d", "e","f","g"]
country_list_df = pd.DataFrame(country_list, columns=["Country"])
country_data_df = pd.DataFrame(country_data, columns=["Country"])
seen_countries = clean_data(country_data_df.Country)
unseen_countries = clean_data(country_list_df.Country) - seen_countries
print("__Seen Countries__ ")
print(seen_countries)
print("__Unseen Countries__ ")
print(unseen_countries)
Output
Seen Страны
{'c', 'a', 'd', 'f', 'e'}
Невидимые страны
{'g', 'b'}