Таблицы данных SQL Server Management Studio в R - PullRequest
0 голосов
/ 04 марта 2019

После подключения к SQL Server Management Studio через RI извлекли 5 нужных мне таблиц данных.Пример моего кода для извлечения одной из таблиц в R:

sql = "SELECT * FROM dbo.tblBenchmarkindex" BenchmarkIndex1 <- sqlQuery(db, sql)`

Я делаю этот точный код для четырех других таблиц.Мне нужно объединить несколько таблиц, чтобы получить одну большую «сводную таблицу», и, поскольку каждая таблица связана одним или несколькими столбцами, я считаю, что объединение - моя лучшая ставка.Проблема, с которой я столкнулся сейчас, заключается в следующем:

В таблице 2 есть 4 переменные и примерно более 808 000 наблюдений: фактор, экспозиция, дата-дата, BsID

В таблице 3 есть 3 переменные и примерно 8000 наблюдений: Factor, Risk, DataDate

Например, я попробовал:

df<-merge(x=Table2,y=Table3,by="Factor",all.x=TRUE)

Вывод, который я получаю, не включает Datadate таблицы 3, что, как я полагаю, происходит потому, что я сделал левыйвнешнее соединение, но мне нужно, чтобы оно было включено без добавления дублирующих наблюдений.Когда я делаю естественное соединение или правое внешнее соединение, я получаю огромное количество «добавленных» наблюдений.

Мой краткий вопрос: как объединить эти две таблицы данных с помощью общей переменной (Фактора), не создавая добавленные переменные?Я очень плохо знаком с R, но чувствую, что понимаю различные типы функций соединения, но чувствую, что не реализую их правильно.

1 Ответ

0 голосов
/ 04 марта 2019

Попробуйте, он выбирает только те столбцы data.frame, которые вас интересуют, для передачи в функцию слияния, и должен привести к объединенному результату data.frame, в котором в качестве вопроса используются только Factor, Exposure и Risk (без DataDate).спрашивает:

df<-merge(x=Table2[,c("Factor","Exposure")],y=Table3[,c("Factor","Risk")],by="Factor",all.x=TRUE)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...