Question

У меня есть случай, когда размер моего файла может варьироваться до 10 ГБ. Я устал от использования панд и не смог обработать проверки из-за ограничений памяти, и теперь я прошел через механизм pyspark dataframe sql для анализа и выполнения некоторого SQL-подобного оператора в памяти для проверки перед тем, как войти в базу данных. Надежен ли двигатель pyspark sql? Или есть ли способ сделать это с помощью панд или любых других модулей. Я вижу, что использование спарка для небольшого набора идентификаторов данных не рекомендуется.

Я совершенно новичок в питоне. Пожалуйста, помогите мне понять и приспособить мой вариант использования.

Pyspark с файлом среднего размера для движка sql

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark с файлом среднего размера для движка sql

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы