Переход с Hadoop на BigQuery - оценка стоимости данных - PullRequest
0 голосов
/ 08 мая 2018

Мы рассматриваем возможность перехода с Hadoop / Hive на BigQuery. Поскольку BigQuery взимает плату за количество запрашиваемых данных, мы пытаемся сделать некоторые оценки затрат.

Можно ли измерить, сколько данных ежедневно обрабатывается всеми процессами в кластере Hadoop? Не уверен, поможет ли это, но мы запускаем все через Hive, а не прямой MapReduce.

Я понимаю, что это будет только приблизительное значение, поскольку BigQuery взимает плату за обработанные столбцы. Это должно дать нам хорошую оценку сверху.

Эйдт: Мы используем Hortonworks.

...