Фон
У меня есть файлы данных, которые состоят из двух частей: данные в формате CSV и метаданные. Я могу использовать метод, приведенный здесь 1 и здесь 2 , чтобы вручную пропустить часть метаданных, указав расположение / номер строки начала метаданных.
Следующий пример файла данных:
![3](https://i.stack.imgur.com/qE5D9.png)
Здесь вы можете видеть, что я могу указать номер строки (420) вручную и использовать следующий код чтобы пропустить метаданные:
with open('data.csv', 'r') as f:
metadata_location = [i for i, x in enumerate(f.readlines()) if 'Metadata' in x]
with open('data.csv', 'r') as f:
flat_data = pd.read_csv(f, index_col=False, skiprows=lambda x: x >= metadata_location[0])
with open('data.csv') as f:
df = pd.read_csv(f, index_col=False)
df = df[:420]
Вопрос
Как я могу отсканировать файл для захвата метаданных, а затем пропустить чтение? (Мне нужно будет обработать несколько таких файлов, поэтому я буду sh писать такой код)