Я хочу прочитать имена папок из файла tar.gz и создать столбец, содержащий имена.
Я использую этот код:
file_path = r"C:\Users\filename.tar.gz"
start_with = './mainfolder/'
import tarfile
import re
with tarfile.open(file_path, "r:*") as tar:
csv_path = tar.getnames()
csv_path = list(n for n in tar.getnames() if (n.endswith('.csv')) & (n.startswith(start_with)))
df = pd.DataFrame()
csv_list = []
for file in csv_path:
df_temp = pd.read_csv(tar.extractfile(file))
csv_list.append(df_temp)
df = pd.concat(csv_list)
В главной папкеЕсть несколько папок с именами. После чтения CSV-файла из папки «X» (например) в этом CSV-файле должен быть создан столбец «FolderName», который должен содержать имя папки («X») для всех строк. И так для каждого файла CSV.
Пример для строки пути: ./mainfolder/1001_name
или ./mainfolder/1002_some_name