Ниже приведен образец даты в таблице hdinsight.
Я хочу сгруппировать эти записи по дате и получить счет. Я запускаю SQL-запрос на hive_2.0, как показано ниже,
select TO_CHAR(date_time, "YYYY-MM-DD") as myDate , count(host) from wc_day13_1 group by myDate
Этот запрос выполняется вечно. Но данные, на которых я работаю, не очень велики, при преобразовании в CSV они составляют всего около 170 Мб. В чем причина этого и как это решить .?
Обновление:
Следующий запрос выполняется быстро. Что означает, что часть преобразования даты - это то, что требует времени и ресурсов.
select date_time , count(host) from wc_day13_1 group by date_time
Я изменил способ преобразования даты и времени в дату,
select CAST(date_time AS "DATE") AS DATE, count(host) from wc_day13_1 group by date_time
Я получаю странную ошибку,