Отсутствуют строки (на самом деле фрагменты размером 10 000) в данных при импорте данных из Hive с использованием драйверов ODBC и пакетов odbc / DBI в R.
У меня 64-разрядный драйвер Microsoft Hive ODBC на 64-разрядной ОС Windows 10. Использование этого драйвера для подключения к базе данных Hive (Hadoop) изнутри R.
Когда я импортирую данные, используя dbGetQuery()
, я заметил, что есть некоторая потеря строк в извлеченных данных, эта потеря не согласована, так как количество пропущенных строк не всегда одинаково или иногда нет потерь в данные на всех.
Можно ли узнать, что является причиной этого, и есть ли способ исправить это, если это уже известная проблема?
Например, в этом случае число строк извлеченных данных должно было быть «385505», но количество строк в кадре данных в R в первый раз отображается как «355505», а во второй раз «375505».
rm(list=ls())
library(odbc)
library(dplyr)
library(tidyr)
library(lubridate)
#create connection
con_hive <- dbConnect(odbc::odbc(), "Hive")
#save query into a variable - This is PSEUDO CODE
sql <- "select * from TABLENAME where CONDITION;"
#run the query against the database connection
data<- dbGetQuery(con_hive, sql)
# check dimensions of extracted data
nrow(data)
#Result :
#[1] 355505