Как установить большой фрейм данных для более быстрого выполнения? - PullRequest
0 голосов
/ 01 октября 2019

У меня есть большой набор данных, загруженный во фрейм данных.

tbl = glueContext.create_dynamic_frame.from_catalog(
    database="db", 
    table_name="tbl"
)

Я работаю над этими данными экспериментально в Jupyter Notebook, разговаривая с конечной точкой Glue / Spark.

Таким образом, для выполнения полных данных не требуется много команд, но достаточно небольшого подмножества.

Итак, я попробовал это:tbls[0] не выглядит значительно более производительным.

a = time.time()
cnt = oivvs[0].count()
b = time.time()
print(f"cnt = {cnt} / {b-a} sec")

-> cnt = 2252 / 72.31371855735779 sec

a = time.time()
cnt = oivvs[1].count()
b = time.time()
print(f"cnt = {cnt} / {b-a} sec")

-> cnt = 45578867 / 77.46211075782776 sec

Я подозреваю, что причина связана с ленивой оценкой выражений. Я предполагаю, что цель состоит в том, чтобы создать глубокую копию тогда.

Есть идеи?

...