Мне нужно загрузить огромные CSV-файлы с помощью Apache Spark.
До сих пор я загружал разные файлы, используя метод read
Apache Spark. Я не столкнулся с какой-либо проблемой. Однако размеры файлов были невелики, они составляли около 100 мегабайт.
Теперь я получил несколько вопросов о масштабируемости, таких как:
«Что произойдет, если файл не помещается в память драйвера?»
Как работает метод spark.read
? Загружается ли CSV-файл в память драйвера (главного узла)? Буду признателен за любую идею, опыт или документацию.
пример кода:
df = spark.read.format("csv").option("header","true").load("hugecsvfile.csv")