Я работаю над проблемой симуляции, когда некоторые данные нужно быстро развернуть.Вот проблема: допустим, у нас есть 2 набора данных X и Y, и нам нужен новый набор данных Z, в котором каждая строка из X используется для заполнения новых столбцов для Y, которая повторяется для каждой строки X и затем объединяется, то есть конечный набор данныхZ имеет размер len (x) * len (y).Каков наиболее эффективный способ создания набора данных Z?Вот что у меня есть:
X = pd.DataFrame({'simulationid':[0,1,2,3],'x1':[10,20,30,40],'x2':[1,2,3,4]})
Y = pd.DataFrame({'timeofday':[5,10,15,20],'var1':[23.5,45.0,46.4,60.3]})
Самый простой вариант (возможно, наименее эффективный) - перебирать каждую строку и заполнять новый фрейм данных:
# loop over every configuration and generate dataset for each,
# then merge at the end
Z = pd.DataFrame()
cols2merge = ['x1','x2']
for index, row in X.iterrows():
for c in cols2merge:
Y[c]=row[c]
Z = pd.concat([Z,Y])
Но это заканчиваетсядо действительно длительного времени, когда размер X увеличивается (от 1000 до 10000).Что бы умнее сделать это, используя преимущества векторных операций или других специфических для Pandas оптимизаций?Я думаю, что есть элегантное решение для слияния / объединения / объединения в одну строку, но я не могу понять это.
Я также попробовал itertuples
вместо iterrows
, как рекомендовано здесь: https://github.com/pandas-dev/pandas/issues/10334 но не заметил значительного улучшения времени выполнения.
Заранее спасибо!