Загрузите (двойной) структурированный текстовый файл с пандами - PullRequest
0 голосов
/ 15 мая 2019

Я пытаюсь загрузить общедоступный текстовый файл в фрейм данных в Pandas, чтобы позже выполнить распознавание сущности имени на немецком языке. исходный текстовый файл имеет структуру # words [date], за которой следуют число (позиция в предложении), слово и имя, позволяющие распознать и слова разделяются с помощью табуляции. Итак, структура:

text [21-03-1991] 1 Aufgrund O O 2 des O O # text [22-04-1993] 1 Aber O P

есть кто-нибудь, как я могу получить его в этом формате:

Aufgrund 0 0
des 0 0

Aber O P

лучший случай каждого # в новом столбце?

я хотел бы использовать

pd.read_csv(...)

1 Ответ

1 голос
/ 16 мая 2019

Пример текстового файла

text  [21-03-1991]    1   Aufgrund    O   O   2   des O   O   #   text    [22-04-1991]    1   Aber    O   P
text  [21-04-1992]    2   Aufgrund    O   O   3   des O   O   #   text    [22-04-1992]    1   Aber    O   P
text  [21-06-1993]    3   Aufgrund    O   O   5   des O   O   #   text    [22-04-1993]    1   Aber    O   P
import pandas as pd

# Reading tab separated text file
df = pd.read_csv("source.txt",sep='\t')

df1 = df.iloc[:,[3,4,5]]
df1.columns = ['V1','V2','V3']
df2 = df.iloc[:,[7,8,9]]
df2.columns = ['V1','V2','V3']
df3 = df.iloc[:,[14,15,16]]
df3.columns = ['V1','V2','V3']

d_one = df1.append(df2, ignore_index=True)
final_df = d_one.append(df3, ignore_index=True)
print(final_df)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...