Почему параметр AWS 'input' в 'History History' приложения EMR настолько велик для приложения Spark? - PullRequest
0 голосов
/ 04 марта 2020

В AWS EMR, если мы откроем вкладку Application History, нажмите на идентификатор приложения YARN applications, мы увидим ряд заданий:

enter image description here

Самый длинный занял 2.6h. Если мы нажмем на него, мы получим следующее:

enter image description here

Итак, здесь я действительно запутался, почему ввод 1.4Tb, так как размер моего входного набора данных только 2Gb. Существуют эталонные наборы данных, которые использует код, и они имеют размер 100Gb, сохраненный в S3, но в любом случае даже объединенные эталонные наборы данных не go превышают 200Gb. Это конвейер luigi Hail, работающий в кластере Spark EMR. Мне интересно, почему это? Это важно, потому что объединенная EBS память для всех используемых мной узлов должна go превышать 1.4Tb, в противном случае кластер останавливается, как будто ему не хватает памяти.

...