Я писал метод Python в Google Colab, чтобы перейти в папку из 84 .csv, объединить их и вывести новый .csv
Вот метод
def concatenate(indirectory = "/content/gdrive/My Drive/Folder/Folder", outfile = "/content/gdrive/My Drive/--.csv"):
os.chdir(indirectory)
fileList = glob.glob("*.csv")
dfList = []
colnames = ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L"]
for filename in fileList:
print(filename)
df = pd.read_csv(filename, header = None)
dfList.append(df)
concatDf = pd.concat(dfList, axis = 0)
concatDf.columns = colnames
concatDf.to_csv(outfile, index = None)
Это работало до такой степени, что конкатенация файлов до некоторой степени, заголовки были дублированы в новые строки, которые я удалил вручную, но было бы неплохо узнать, как удалить их в методе.
Однако по причинам, которые я не понимаю, для этого потребовалось несколько идентификаторов, содержащихся в столбце A, и дублировали их в строках, где столбец A был пустым. Я не осознавал, пока не начал проводить анализ данных, включающих столбцы A и
aCount = df['A'].value_counts()
показывал, что некоторые идентификаторы дублировались в пустые строки большое количество раз.
Я пытался последние 2 дня и не могу понять, что не так с моим методом.