В AWS EMR
, если мы откроем вкладку Application History
, нажмите на идентификатор приложения YARN applications
, мы увидим ряд заданий:

Самый длинный занял 2.6h
. Если мы нажмем на него, мы получим следующее:

Итак, здесь я действительно запутался, почему ввод 1.4Tb
, так как размер моего входного набора данных только 2Gb
. Существуют эталонные наборы данных, которые использует код, и они имеют размер 100Gb
, сохраненный в S3
, но в любом случае даже объединенные эталонные наборы данных не go превышают 200Gb
. Это конвейер luigi
Hail
, работающий в кластере Spark EMR
. Мне интересно, почему это? Это важно, потому что объединенная EBS
память для всех используемых мной узлов должна go превышать 1.4Tb
, в противном случае кластер останавливается, как будто ему не хватает памяти.