Скопировав эти данные из XML и сохранив их в Pandas DataFrame, я хотел спросить, нужно ли и как форматировать данные в соответствии с требованиями.
![Dataset Image (Updated)](https://i.stack.imgur.com/JOA0F.png)
Проблема 1: По сути, каждые три строки необходимо объединить, удалив NaN, чтобы представить одну строку.
Например, правильный способ представления этих данных:
qid, qualid, val
0 2065887850, 227, (0,0,0,0,0,0,0,0,0,0)
1 2021905255, 30, (49214,.....,...,....)
Задача 2:
В некоторых местах переменная val фактически отсутствует (каждая третья строка в исходных данных), и для этого мне нужно разместить NaN. Желаемый результат в этом случае будет. В идеале мне нужно решение, которое решает обе проблемы.
qid, qualid, val
0 2065887850, 227, (0,0,0,0,0,0,0,0,0,0)
1 2121905255, 23, (49214,.....,...,....)
2 2834347850, 17, NaN
3 2121905255, 930, (14124,.....,...,....)
4 2465212110, 227, (2,2,1,4,6,7,0,0,0,0)
5 2921905225, 130, NaN