Как контролировать размер кучи jvm с помощью Pyspark / Dataproc - PullRequest
0 голосов
/ 25 июня 2018

Я заметил, что мои коды pyspark вызывают ошибку памяти. Используя VirtualVM, я заметил моменты, когда размер кучи увеличивается по сравнению с памятью исполнителя, и изменил коды. Теперь, когда я пытаюсь развернуть коды с большими данными и в dataproc, мне было трудно найти хороший способ контролировать размер кучи. Есть ли хороший способ контролировать размер кучи во время выполнения? Я думаю, что было бы проще, если бы я мог распечатать размер кучи времени выполнения через py4j или любую другую библиотеку.

...