У меня есть текстовый файл, который дает мне список «BLOB-объектов», каждый с индексом, а затем область BLOB-объектов на каждом временном шаге, в котором они существуют.
Я хочу получить: a) длительность каждого шага в шагах по времени b) среднюю площадь каждого шага по всем временным шагам, для которых он существует
Текстовый файл выглядит следующим образом это:
![screen shot of text file I want to get into a data frame](https://i.stack.imgur.com/dg2s7.png)
Технически, продолжительность каждого BLOB-объекта уже указана в скобках после индекса BLOB-объекта, но есть 60 000 BLOB-объектов, поэтому мне нужен способ чтобы извлечь эти данные и подумать, смогу ли я получить их в pandas фрейме данных, я мог бы просто «посчитать» области, чтобы получить продолжительность.
Однако у меня возникают проблемы с поиском наилучшего способа разбора текстового файла в пригодный для использования фрейм данных pandas. Я думаю, что ярлыки Blob X должны быть каким-то образом индексом, и я уверен, что для этого мне нужно использовать регулярные выражения. Однако я никогда не работал с регулярными выражениями и хотел бы получить несколько советов.
Пока у меня есть следующее (не очень впечатляющее, я знаю):
import pandas as pd
df = pd.read_csv(f, sep="\t")
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')
print(df)
Но единственная «колонка», которую обнаружил pandas, это самый первый Blob 1 ( 1). Любые идеи о том, как проанализировать текстовый файл, чтобы получить его в формате фрейма данных?