Apache Spark ---- как spark читает большие разделы из источника, когда не хватает памяти - PullRequest
0 голосов
/ 12 февраля 2020

Предположим, что мой источник данных содержит данные в 5 разделах, каждый размер раздела составляет 10 ГБ, поэтому общий размер данных составляет 50 ГБ, я сомневаюсь, что, когда у моего искрового кластера нет 50 ГБ основной памяти, как Spark обрабатывает исключения из памяти, и Какова лучшая практика, чтобы избежать этих сценариев ios в искре.

1 Ответ

0 голосов
/ 12 февраля 2020

50 ГБ - это данные, которые могут поместиться в памяти, и вам, вероятно, не нужен Spark для данных такого типа - они будут работать медленнее, чем другие решения.

Также в зависимости от задания и формата данных, много В некоторых случаях не все данные должны быть считаны в память (например, чтение только нужных столбцов из столбчатого формата хранения, такого как паркет)

Вообще-то, когда данные не помещаются в память, Spark записывает временные файлы в диск. вам может потребоваться настроить работу на более мелкие разделы, чтобы каждый отдельный раздел помещался в памяти. см. Настройка памяти Spark

Арнон

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...