В основном для обработки большого объема данных вам необходимо использовать инструмент для работы с большими данными, например Hadoop
или Apache Spark
. Вы можете использовать pyspark
, который представляет собой комбинацию python и spark, обладающую высокой эффективностью для обработки данных.
Я предлагаю, если у вас плоский формат файла, тогда используйте формат файла ORC для обработки данных в pyspark, что повышает вашу производительность,