У меня есть основной df из 250k наблюдений, к которому я хочу добавить набор переменных, которые мне пришлось вычислять в меньших dfs (5 различных dfs по 50k наблюдений каждый) из-за ограничений в функции left_join / merge-function'sразмер строки (2 ^ 31-1 наблюдения).
Сейчас я пытаюсь использовать функции left_join или merge на главном df и 5 меньших, чтобы добавить столбцы для новых переменных в основной df для наблюдений по 50k на каждом шаге.
mainFrame <- left_join(mainFrame, newVariablesFirstSubsample)
mainFrame <- left_join(mainFrame, newVariablesSecondSubsample)
mainFrame <- left_join(mainFrame, newVariablesThirdSubsample)
mainFrame <- left_join(mainFrame, newVariablesFourthSubsample)
mainFrame <- left_join(mainFrame, newVariablesFifthSubsample)
После первого left_join (которое включает в себя значения новых переменных для первых 50k наблюдений), R, кажется, не включает никаких значений для следующих групп наблюдений 50k, когда я запускаю второй-пятый left_joins.Я пришел к этому выводу из построения сводной статистики для соответствующих столбцов после каждого left_join.
Есть идеи о том, что я делаю неправильно или какие другие функции я могу использовать?