Я написал функцию для сравнения 2-х столбцов (с одинаковыми именами) в двух разных фреймах данных, в случае, если мой очистка остановлена, я могу начать заново только с тех URL, которые не были удалены.
def diff(list1, list2):
return list(set(list1).symmetric_difference(set(list2)))
if os.path.isfile("dataset\\infos.csv"):
# instructions
tableauInfos = pd.read_csv('dataset\\infos.csv', encoding="utf-8", sep=',', names=colonnes, dtype="unicode")
tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
colonnes1 = tableauInfos['lien']
colonnes2 = tableauLiens['lien']
listeLiens = diff(colonnes1, colonnes2)
else:
# instructions
tableauInfos = DataFrame(columns = colonnes)
tableauInfos.to_csv('dataset\\infos.csv', index=False)
tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
listeLiens = tableauLiens['lien']
Я проверяюсначала, если файл существует, если да, я извлекаю два столбца и применяю функцию diff. Все в порядке, но много раз, во время утилизации, код останавливается со следующей ошибкой:
TypeError: can only concatenate str (not "float") to str
И когда в конце (когда удаляется много URL-адресов), я печатаю содержимое listeLiens,У меня есть:
[nan, 'lien']
Я не понимаю, почему этот 'nan' и почему он отображает также название столбца "lien"