Я объединяю множество файлов CSV, используя glob
. Однако не все файлы CSV содержат все поля. Какой logi c я должен использовать в моем операторе if
, чтобы:
- Создать столбец, если он еще не существует во временном фрейме данных
- Заполните столбец выше
NaN
значения
Вот упрощенный фрагмент моего кода для справки:
for file in allFiles:
try:
df_temp = pd.read_csv(os.path.join(file))
if 'text' in df_temp: # if the file contains 'text' column
print(file)
df_temp['mask'] = df_temp['text'].str.contains(regex_pattern)
df_temp = (df_temp[df_temp['mask'] == True]).drop('mask', axis = 1)
df_temp['dataset_source'] = str(file) # Create source file column
except pd.io.common.EmptyDataError:
print(file, " is empty and has been skipped.")
dataframes.append(df_temp)
Спасибо!