Question

У меня есть 60 файлов данных с примерно 70 столбцами, каждый из которых содержит 200 000 - 300 000 записей в каждом файле. я использую PySpark для чтения файлов и преобразования данных (проверьте дубликаты в базе данных и т. д. c) и загружаю данные из всех этих файлов в серверную базу данных Azure SQL. Мой вопрос заключается в том, как долго этот процесс должен занять? в настоящее время это занимает 2-3 часа, что я не думаю, что PySpark / Pandas является идеальным временем для обработки этих файлов данных. Весь процесс, согласно моему пониманию этих технологий больших данных, должен занять <1 час, а в идеале может быть несколько минут? Я новичок в PySpark / Pandas и действительно хочу понять соответствующие скорости преобразования. Любая идея, пожалуйста? </p>

Pyspark / Pandas Скорость преобразования данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark / Pandas Скорость преобразования данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов