Ниже приведен пример данных, с которыми я работаю:
sample_dat = pd.DataFrame(
np.array([[1,0,1,1,1,5],
[0,0,0,0,1,3],
[1,0,0,0,1,1],
[1,0,0,1,1,1],
[1,0,0,0,1,1],
[1,1,0,0,1,1]]),
columns=['var1','var2','var3','var4','var5','cnt']
)
Мне нужно изменить данные, чтобы строки дублировались в соответствии со значением в последнем столбце. В частности, я хочу, чтобы он дублировался на основе значения в столбце cnt
.
Мой поиск дал много информации о расплавлении, расщеплении и прочем. Я думаю, что то, что я ищу, очень просто, надеюсь. Также обратите внимание, что в первом столбце у меня, скорее всего, будет какой-то идентификатор, который будет либо целым числом, либо строкой.
Например, первая запись будет продублирована еще 4 раза. Вторая запись будет дублирована еще дважды.
Пример того, как будет выглядеть DataFrame
, если бы я делал это вручную с синтаксисом, приведен ниже:
sample_dat2 = pd.DataFrame(
np.array([[1,0,1,1,1,5],
[1,0,1,1,1,5],
[1,0,1,1,1,5],
[1,0,1,1,1,5],
[1,0,1,1,1,5],
[0,0,0,0,1,3],
[0,0,0,0,1,3],
[0,0,0,0,1,3],
[1,0,0,0,1,1],
[1,0,0,1,1,1],
[1,0,0,0,1,1],
[1,1,0,0,1,1]]),
columns=['var1','var2','var3','var4','var5','cnt']
)