У меня есть случай, когда размер моего файла может варьироваться до 10 ГБ. Я устал от использования панд и не смог обработать проверки из-за ограничений памяти, и теперь я прошел через механизм pyspark dataframe sql для анализа и выполнения некоторого SQL-подобного оператора в памяти для проверки перед тем, как войти в базу данных. Надежен ли двигатель pyspark sql? Или есть ли способ сделать это с помощью панд или любых других модулей. Я вижу, что использование спарка для небольшого набора идентификаторов данных не рекомендуется.
Я совершенно новичок в питоне. Пожалуйста, помогите мне понять и приспособить мой вариант использования.