У меня проблемы с получением TXT-файлов, расположенных в заархивированных файлах, для загрузки / объединения с помощью панд. Здесь есть много примеров с pd.concat (zip_file.open), но в моем случае ничего не получается, так как у меня более одного zip-файла и несколько txt-файлов в каждом.
Например, допустим, у меня есть ДВА архива в определенной папке «Main». Каждый заархивированный файл содержит ПЯТЬ текстовых файлов каждый. Я хочу прочитать все эти текстовые файлы и pd.concat их всех вместе. В моем примере из реального мира у меня будут десятки папок zip, в каждой из которых будет пять txt-файлов.
Можете ли вы помочь, пожалуйста?
Структура папок и файлов для примера:
'C:/User/Example/Main'
TAG_001.zip
sample001_1.txt
sample001_2.txt
sample001_3.txt
sample001_4.txt
sample001_5.txt
TAG_002.zip
sample002_1.txt
sample002_2.txt
sample002_3.txt
sample002_4.txt
sample002_5.txt
Я начал так, но все после этого выдает ошибки:
import os
import glob
import pandas as pd
import zipfile
path = 'C:/User/Example/Main'
ziplist = glob.glob(os.path.join(path, "*TAG*.zip"))