Question

У меня есть кадр данных pandas, который структурирован примерно так:

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

Необработанные данные, которые я получил, имеют повторяющиеся идентификаторы, которые, если вы объединяете текст для каждого уникального идентификатора, вы получаете результирующий документ.Некоторые из этих идентификаторов повторяются сотни раз, что приводит к большому количеству текста, который я хотел бы свести к одному наблюдению.

Я не уверен, что делать с циклом и созданием нового документа.Также не уверен, является ли Pandas правильной структурой данных для хранения большого количества текста (это транскрибированные записи вызовов - некоторые из них 30 минут + разговоры).Был бы признателен за любые указатели.

WeNYoBen · Answer 1 · 21 сентября 2018

Если без groupby

(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]: 
ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

piRSquared · Answer 2 · 21 сентября 2018

IIUC:

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

создание нового фрейма данных из объединения текстовых панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

создание нового фрейма данных из объединения текстовых панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов