Умные способы чтения текстового файла в pandas данных с помощью регулярных выражений - PullRequest
0 голосов
/ 22 января 2020

У меня есть текстовый файл, который дает мне список «BLOB-объектов», каждый с индексом, а затем область BLOB-объектов на каждом временном шаге, в котором они существуют.

Я хочу получить: a) длительность каждого шага в шагах по времени b) среднюю площадь каждого шага по всем временным шагам, для которых он существует

Текстовый файл выглядит следующим образом это:

screen shot of text file I want to get into a data frame

Технически, продолжительность каждого BLOB-объекта уже указана в скобках после индекса BLOB-объекта, но есть 60 000 BLOB-объектов, поэтому мне нужен способ чтобы извлечь эти данные и подумать, смогу ли я получить их в pandas фрейме данных, я мог бы просто «посчитать» области, чтобы получить продолжительность.

Однако у меня возникают проблемы с поиском наилучшего способа разбора текстового файла в пригодный для использования фрейм данных pandas. Я думаю, что ярлыки Blob X должны быть каким-то образом индексом, и я уверен, что для этого мне нужно использовать регулярные выражения. Однако я никогда не работал с регулярными выражениями и хотел бы получить несколько советов.

Пока у меня есть следующее (не очень впечатляющее, я знаю):

import pandas as pd


df = pd.read_csv(f, sep="\t")
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')
print(df)

Но единственная «колонка», которую обнаружил pandas, это самый первый Blob 1 ( 1). Любые идеи о том, как проанализировать текстовый файл, чтобы получить его в формате фрейма данных?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...