Как обойти Hive и выполнить count (*) быстрее, используя другие инструменты Hadoop? - PullRequest
0 голосов
/ 27 сентября 2018

Задание "Мой счетчик (*)" выполняется в течение ~ 50 секунд, чтобы сообщить, что в этой таблице Hive есть 5k записей.

INFO  : Ended Job = job_1537244839121_123016
INFO  : MapReduce Jobs Launched: 
INFO  : Stage-Stage-1: Map: 7  Reduce: 1   Cumulative CPU: 60.8 sec   HDFS Read: 2022641 HDFS Write: 104 SUCCESS
INFO  : Total MapReduce CPU Time Spent: 1 minutes 0 seconds 800 msec
INFO  : Completed executing command(queryId=hive_20180927135454_6de461ea-c02c-4229-b225-525244da7a8c); Time taken: 48.972 seconds
INFO  : OK
+-------+--+
|  _c0  |
+-------+--+
| 5628  |
+-------+--+
1 row selected (49.507 seconds)

Есть ли способ отсканировать файл Parquet и быстрее вернуть этот ответ?использовать другие средства в Hadoop?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...