У меня есть большой набор данных, загруженный во фрейм данных.
tbl = glueContext.create_dynamic_frame.from_catalog(
database="db",
table_name="tbl"
)
Я работаю над этими данными экспериментально в Jupyter Notebook, разговаривая с конечной точкой Glue / Spark.
Таким образом, для выполнения полных данных не требуется много команд, но достаточно небольшого подмножества.
Итак, я попробовал это:tbls[0]
не выглядит значительно более производительным.
a = time.time()
cnt = oivvs[0].count()
b = time.time()
print(f"cnt = {cnt} / {b-a} sec")
-> cnt = 2252 / 72.31371855735779 sec
a = time.time()
cnt = oivvs[1].count()
b = time.time()
print(f"cnt = {cnt} / {b-a} sec")
-> cnt = 45578867 / 77.46211075782776 sec
Я подозреваю, что причина связана с ленивой оценкой выражений. Я предполагаю, что цель состоит в том, чтобы создать глубокую копию тогда.
Есть идеи?