Пожалуйста, извините, если этот вопрос слишком чуткий, я новичок в Python и мне нужно использовать его для работы, что, к сожалению, означает погружение в вещи более высокого уровня без предварительного понимания основ ...
У меня есть массивный CSV с текстовыми стенограммами, которые я читаю в кадре данных pandas. Эти стенограммы разбиты на идентификаторы, и идентификаторы должны быть сгруппированы, чтобы получить отдельную запись для каждого взаимодействия, поскольку они разбиты на сегменты в исходной базе данных, из которой они получены. Формат примерно такой:
ID TEXT
1 This is the beginning of a convo
1 heres the middle
1 heres the end of the convo
2 this is the start of another convo...etc.
Я использовал этот код для группировки по идентификатору и создания отдельных записей:
df1 = df.groupby('ID').text.apply(' '.join)
Этот код работал отлично, но теперь я застрял в серии (?), Которая больше не распознает индекс «ID», я думаю, что он был слит с текстом или чем-то еще. Когда я использую to_frame (), проблема остается. Мне интересно, как я мог бы снова отделить идентификатор и использовать его для индексации данных?