Заполните отсутствующие столбцы значениями NaN при загрузке нескольких CSV с помощью glob - PullRequest
0 голосов
/ 07 мая 2020

Я объединяю множество файлов CSV, используя glob. Однако не все файлы CSV содержат все поля. Какой logi c я должен использовать в моем операторе if, чтобы:

  1. Создать столбец, если он еще не существует во временном фрейме данных
  2. Заполните столбец выше NaN значения

Вот упрощенный фрагмент моего кода для справки:

for file in allFiles:    
    try:
        df_temp = pd.read_csv(os.path.join(file))
        if 'text' in df_temp: # if the file contains 'text' column
            print(file)
            df_temp['mask'] = df_temp['text'].str.contains(regex_pattern)
            df_temp = (df_temp[df_temp['mask'] == True]).drop('mask', axis = 1)
            df_temp['dataset_source'] = str(file) # Create source file column    
    except pd.io.common.EmptyDataError:
        print(file, " is empty and has been skipped.")
    dataframes.append(df_temp)

Спасибо!

...