Question

Я понимаю разницу между .cache () и .persist (). Cache = In Memory и persist позволяет нам принять решение.

Мой вопрос заключается в том, что для действительно больших источников данных (10 ТБ +) будет ли сохранение лучше, чем заполнение памяти данными? Что произойдет, если память заполнится с помощью .cache ()? Работа провалилась? Потому что, если бы мой DF был> размером больше доступной памяти, что бы произошло?

Большое спасибо!

PYSpark Dataframes кэширование и сохранение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

PYSpark Dataframes кэширование и сохранение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов