Мы рассматриваем возможность перехода с Hadoop / Hive на BigQuery. Поскольку BigQuery взимает плату за количество запрашиваемых данных, мы пытаемся сделать некоторые оценки затрат.
Можно ли измерить, сколько данных ежедневно обрабатывается всеми процессами в кластере Hadoop? Не уверен, поможет ли это, но мы запускаем все через Hive, а не прямой MapReduce.
Я понимаю, что это будет только приблизительное значение, поскольку BigQuery взимает плату за обработанные столбцы. Это должно дать нам хорошую оценку сверху.
Эйдт: Мы используем Hortonworks.