У меня проблема с транспонированием Pandas DataFrame, который имеет следующую структуру:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
foo 0 4 0 0 0 0 0 0 0 0 14 1 0 1 0 0 0
bar 0 6 0 0 4 0 5 0 0 0 0 0 0 0 1 0 0
lorem 1 3 0 0 0 1 0 0 2 0 3 0 1 2 1 1 0
ipsum 1 2 0 1 0 0 1 0 0 0 0 0 4 0 6 0 0
dolor 1 2 4 0 1 0 0 0 0 0 2 0 0 1 0 0 2
..
С индексом:
foo,bar,lorem,ipsum,dolor,...
И это в основном матрица условий документов где строки - это термины, а заголовки (0-16) - индексы документов. Поскольку моя цель - кластеризация документов, а не терминов, я хочу транспонировать фрейм данных и использовать его для вычисления косинус-расстояния между самими документами. Но когда я переставляю с:
pd.transpose()
, я получаю:
foo bar ... pippo lorem
0 0 0 ... 0 0
1 4 6 ... 0 0
2 0 0 ... 0 0
3 0 0 ... 0 0
4 0 4 ... 0 0
..
16 0 2 ... 0 1
С индексом:
0 , 1 , 2 , 3 , ... , 15, 16
Что бы я хотел? Я ищу способ сделать эту операцию, сохраняя индекс фрейма данных. По сути, первая строка моего нового df должна быть индексом.
Спасибо