Как написать предикатное выражение на AWS Glue - PullRequest
0 голосов
/ 15 сентября 2018

Я новичок в AWS Glue и PySpark.Ниже приведен пример кода

    glue_context.create_dynamic_frame.from_catalog(
    database = "my_S3_data_set",
    table_name = "catalog_data_table",
    push_down_predicate = my_partition_predicate)

в руководстве Управление разделами для вывода ETL в AWS Glue .

Предположим, что SQL-запрос для фильтрации фрейма данных выглядит следующим образом

    select * from catalog_data_table
    where timestamp >= '2018-1-1'

Как выполнить предварительную фильтрацию на AWS Glue?

1 Ответ

0 голосов
/ 16 ноября 2018

Вообще говоря, ваши данные должны быть разделены, и тогда вы сможете использовать эти столбцы разделения в выражении push_down_predicate.

Пожалуйста, посмотрите на этот ответ.

...