Большой объем данных на ПК? - PullRequest
0 голосов
/ 23 октября 2019

Здравствуйте, я хочу иметь дело с большим объемом данных в 1 миллиард строк и 23 столбца. Но в пандах я даже не могу прочитать данные. Итак, как я могу обрабатывать эти данные на моем компьютере Dell XPS 9570. Могу ли я использовать для этого спарк? Любой совет, чтобы справиться с этим на моем компьютере?

Спасибо

1 Ответ

0 голосов
/ 23 октября 2019

В основном для обработки большого объема данных вам необходимо использовать инструмент для работы с большими данными, например Hadoop или Apache Spark. Вы можете использовать pyspark, который представляет собой комбинацию python и spark, обладающую высокой эффективностью для обработки данных.

Я предлагаю, если у вас плоский формат файла, тогда используйте формат файла ORC для обработки данных в pyspark, что повышает вашу производительность,

...