Pyspark / Pandas Скорость преобразования данных - PullRequest
0 голосов
/ 05 апреля 2020

У меня есть 60 файлов данных с примерно 70 столбцами, каждый из которых содержит 200 000 - 300 000 записей в каждом файле. я использую PySpark для чтения файлов и преобразования данных (проверьте дубликаты в базе данных и т. д. c) и загружаю данные из всех этих файлов в серверную базу данных Azure SQL. Мой вопрос заключается в том, как долго этот процесс должен занять? в настоящее время это занимает 2-3 часа, что я не думаю, что PySpark / Pandas является идеальным временем для обработки этих файлов данных. Весь процесс, согласно моему пониманию этих технологий больших данных, должен занять <1 час, а в идеале может быть несколько минут? Я новичок в PySpark / Pandas и действительно хочу понять соответствующие скорости преобразования. Любая идея, пожалуйста? </p>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...