У меня есть следующий формат данных в файле:
ID,var_name,var_value
1,ABC,This is abc1
1,DEF,This is def1
2,ABC,This is abc2
2,DEF,This is def2
2,GHI,This is ghi2
3,ABC,This is abc3
4,ABC,This is abc4
4,DEF,This is def4
также у меня есть список заголовков = ['ABC','GHI']
В указанном выше наборе данных каждый "ID" не обязательноиметь все переменные, однако ID:2
содержит максимальное количество переменных (ABC, DEF, GHI).Мне нужно преобразовать вышеуказанный набор данных в следующий формат вложенного списка:
[['ID','ABC','GHI'], [1,'This is abc1', ''],[2, 'This is abc2','This is ghi2'],[3,'This is abc3',''],[4,'This is abc4','']]
Это означает, что список должен:
- заполнить данные для всех идентификаторов
- создать пустую строку для тех переменных, которых нет в указанном выше наборе данных.
- заполнить вложенный список, поддерживая тот же порядок, что и в списке заголовков
- заполнить только те значения заголовка, т.е. список заголовковимеет только значения 'ABC', 'GHI', поэтому вложенный список должен заполнять только значения 'ABC' и 'GHI' и игнорировать строки 'DEF' из указанного набора данных.
Я хочусделать это в Python 2.7, возможно используя Pandas.