Stepwise left_join / merge - PullRequest
       1

Stepwise left_join / merge

0 голосов
/ 04 февраля 2019

У меня есть основной df из 250k наблюдений, к которому я хочу добавить набор переменных, которые мне пришлось вычислять в меньших dfs (5 различных dfs по 50k наблюдений каждый) из-за ограничений в функции left_join / merge-function'sразмер строки (2 ^ 31-1 наблюдения).

Сейчас я пытаюсь использовать функции left_join или merge на главном df и 5 меньших, чтобы добавить столбцы для новых переменных в основной df для наблюдений по 50k на каждом шаге.

mainFrame <- left_join(mainFrame, newVariablesFirstSubsample)
mainFrame <- left_join(mainFrame, newVariablesSecondSubsample)
mainFrame <- left_join(mainFrame, newVariablesThirdSubsample)
mainFrame <- left_join(mainFrame, newVariablesFourthSubsample)
mainFrame <- left_join(mainFrame, newVariablesFifthSubsample)

После первого left_join (которое включает в себя значения новых переменных для первых 50k наблюдений), R, кажется, не включает никаких значений для следующих групп наблюдений 50k, когда я запускаю второй-пятый left_joins.Я пришел к этому выводу из построения сводной статистики для соответствующих столбцов после каждого left_join.

Есть идеи о том, что я делаю неправильно или какие другие функции я могу использовать?

1 Ответ

0 голосов
/ 04 февраля 2019

Таблицы данных позволяют вам создавать «ключи», которые являются R-версиями индексов SQL.Это поможет вам ускорить поиск столбцов, которые R использует для их слияния или объединения слева.

На вашем месте я бы просто экспортировал все из них в CSV-файлы и обработал их из SQL илииспользуя сервис SSIS.

Проблема, которую я отмечаю, заключается в том, что вы понимаете ошибку из сводной статистики.Вы пытались изменить порядок, в котором вы вставляете таблицы.Или явно указав имена столбцов, используемых в левом соединении?

Пожалуйста, дайте мне знать результат.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...