У меня есть кадр данных pandas, который структурирован примерно так:
ID TEXT
1 Start of document
1 middle
1 end of document
2 start of document 2
2 middle
2 end of document 2
Необработанные данные, которые я получил, имеют повторяющиеся идентификаторы, которые, если вы объединяете текст для каждого уникального идентификатора, вы получаете результирующий документ.Некоторые из этих идентификаторов повторяются сотни раз, что приводит к большому количеству текста, который я хотел бы свести к одному наблюдению.
Я не уверен, что делать с циклом и созданием нового документа.Также не уверен, является ли Pandas правильной структурой данных для хранения большого количества текста (это транскрибированные записи вызовов - некоторые из них 30 минут + разговоры).Был бы признателен за любые указатели.