как избежать связанных с GC исключений или исключений, связанных с памятью в Apache Beam - PullRequest
0 голосов
/ 19 декабря 2018

Когда я запускаю конвейер, содержащий исходный код JDBC, а последующий результат преобразования сортировки сохраняется в другой базе данных.Этот конвейер работает правильно для небольших наборов данных, но проблема заключается в том, что при рассмотрении 5L записей из 7 столбцов он показывает GC-Exception нет памяти для обработки и некоторые связанные исключения

Я используюApache Spark в качестве бегуна и протестированный как в Direct (локальный бегун), так и в Spark (Apache Spark Runner) получил одинаковый ответ и в этих 2 случаях

Мне нужно предложение, как избежать исключений, связанных с памятью

  • Можем ли мы обрабатывать данные в пакетных форматах?Если да, как этого добиться, и в таких сценариях мы получим несколько выходов, а не один выход, как обрабатывать конфигурации

  • или на уровне Runner (при распределении заданий) (например, Cores, Executorsв Spark) требуются?если да, то каковы они?

  • Или следует настроить память кучи Java, так как я вижу исключения памяти кучи Java тоже

во-первых GC-Exception выбрасывается, потому что нет памяти для обработки, поскольку для преобразования типов сортировки требуется большой объем памяти для обработки данных

...