Ошибка панд при сравнении двух столбцов 2 разных csv - PullRequest
1 голос
/ 19 октября 2019

Я написал функцию для сравнения 2-х столбцов (с одинаковыми именами) в двух разных фреймах данных, в случае, если мой очистка остановлена, я могу начать заново только с тех URL, которые не были удалены.

def diff(list1, list2):
    return list(set(list1).symmetric_difference(set(list2)))


if os.path.isfile("dataset\\infos.csv"):
    # instructions
    tableauInfos = pd.read_csv('dataset\\infos.csv', encoding="utf-8", sep=',', names=colonnes, dtype="unicode")
    tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
    colonnes1 = tableauInfos['lien']
    colonnes2 = tableauLiens['lien']
    listeLiens = diff(colonnes1, colonnes2)
else:
    # instructions
    tableauInfos = DataFrame(columns = colonnes)
    tableauInfos.to_csv('dataset\\infos.csv', index=False)
    tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
    listeLiens = tableauLiens['lien']

Я проверяюсначала, если файл существует, если да, я извлекаю два столбца и применяю функцию diff. Все в порядке, но много раз, во время утилизации, код останавливается со следующей ошибкой:

TypeError: can only concatenate str (not "float") to str

И когда в конце (когда удаляется много URL-адресов), я печатаю содержимое listeLiens,У меня есть:

[nan, 'lien']

Я не понимаю, почему этот 'nan' и почему он отображает также название столбца "lien"

...