Я пытаюсь прочитать набор текстовых файлов и сохранить их в Dataframe. Благодаря @jezrael мне удалось заставить это работать, как показано ниже:
list_ = []
dfs = []
for file_ in allFiles:
with open(file_) as fp:
lines1 = fp.read().split('\n')
b = [i.split('~', 1)[1].split('*') for i in lines1]
df = pd.DataFrame(b)
dfs.append(df)
dfbig = pd.concat(dfs, ignore_index=True)
dfbig.to_csv('file.csv')
Однако я вижу, что есть несколько строк, которые имеют несколько записей ('~')
и, следовательно, каждый раз, когда ('~')
встречается более одного раза подряд, он просто выполняет разделение один раз. Я пытаюсь понять, как я могу изменить приведенный выше код так, чтобы разделение происходило каждый раз, когда появляется ('~')
.
Пример данных:
[ABC*DEF*123>~123*999*HHH~HELLO*TEST*DATA]
Ожидаемый результат:
123 999 HHH
HELLO TEST DATA