создание нового фрейма данных из объединения текстовых панд - PullRequest
0 голосов
/ 21 сентября 2018

У меня есть кадр данных pandas, который структурирован примерно так:

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

Необработанные данные, которые я получил, имеют повторяющиеся идентификаторы, которые, если вы объединяете текст для каждого уникального идентификатора, вы получаете результирующий документ.Некоторые из этих идентификаторов повторяются сотни раз, что приводит к большому количеству текста, который я хотел бы свести к одному наблюдению.

Я не уверен, что делать с циклом и созданием нового документа.Также не уверен, является ли Pandas правильной структурой данных для хранения большого количества текста (это транскрибированные записи вызовов - некоторые из них 30 минут + разговоры).Был бы признателен за любые указатели.

Ответы [ 2 ]

0 голосов
/ 21 сентября 2018

Если без groupby

(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]: 
ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object
0 голосов
/ 21 сентября 2018

IIUC:

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...