Как решить проблему отсутствия фрагмента данных при импорте данных из базы данных с использованием odbc / DBI в R? - PullRequest
0 голосов
/ 24 апреля 2019

Отсутствуют строки (на самом деле фрагменты размером 10 000) в данных при импорте данных из Hive с использованием драйверов ODBC и пакетов odbc / DBI в R.

У меня 64-разрядный драйвер Microsoft Hive ODBC на 64-разрядной ОС Windows 10. Использование этого драйвера для подключения к базе данных Hive (Hadoop) изнутри R.

Когда я импортирую данные, используя dbGetQuery(), я заметил, что есть некоторая потеря строк в извлеченных данных, эта потеря не согласована, так как количество пропущенных строк не всегда одинаково или иногда нет потерь в данные на всех.

Можно ли узнать, что является причиной этого, и есть ли способ исправить это, если это уже известная проблема?

Например, в этом случае число строк извлеченных данных должно было быть «385505», но количество строк в кадре данных в R в первый раз отображается как «355505», а во второй раз «375505».

rm(list=ls())

library(odbc)
library(dplyr)
library(tidyr)
library(lubridate)

#create connection
con_hive <- dbConnect(odbc::odbc(), "Hive")

#save query into a variable - This is PSEUDO CODE
sql <- "select * from  TABLENAME  where CONDITION;"

#run the query against the database connection
data<- dbGetQuery(con_hive, sql)

# check dimensions of extracted data 
nrow(data)

#Result :
#[1] 355505

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...