У меня есть длина использования фрейма данных 162430. Фрейм данных похож на это.
start_region_hash Time gap
1 146 9
1 163 7
1 162 10
1 144 5
........
66 14 0
66 17 0
66 11 0
Я хочу добавить больше столбцов длиной 4800. Я хочу сделать их длину 162430.
Date Time Weather Temprature PM2.5
2016-01-01 00:00:28 1 4.0 177
2016-01-01 00:05:24 1 3.0 177
2016-01-01 00:10:08 1 3.0 177
.......
2016-01-21 23:45:44 2 1.0 59
2016-01-21 23:50:31 2 1.0 59
2016-01-21 23:55:26 2 1.0 59
Теперь я хочу сопоставить длину как новых столбцов, так и исходных данных, добавив несколько строк позже.Я знаю, что это сложно.Я хочу, чтобы общая длина 162430. Новые данные должны быть добавлены со случайностью, но основанием вероятности.Я читаю эти данные из файлов с данными.Например, есть 278 строк даты 2016-01-01, но 40 строк 2016-01-21.Общая вероятность появления новых строк должна быть взята из len (2016-01-21).
Теперь, например, при генерации новых строк вероятность 2016-01-21 составляет 2%, поскольку она имеет минимальные строки, а общее количество строк, которые она внесет, равно 100. Теперь при генерации этих 100 строк вероятность должна основываться наданные существующих строк.