Объединение JSON файлов на основе нескольких ключей в масштабе - PullRequest
0 голосов
/ 27 мая 2020

Я хочу объединить большое количество JSON файлов, хранящихся в сегментах S3, на основе взаимосвязи между несколькими их ключами. Каждая корзина содержит файлы с разной схемой. Слишком много файлов для l oop с помощью Python или пакетного сценария.

Например, если в ведре 1 есть файлы со схемой 1, а в ведре 2 есть файлы со схемой 2, я хотел бы агрегировать файлы на основе приведенного ниже logi c:

(schema1.key1 == schema2.key2 && schema2.key3 > schema1.key4)

Я рассматривал Spark, но не смог найти документацию по агрегированию по ключам для сравнений, отличных от равенства. Spark - лучшее решение или есть лучшее решение, которое я должен использовать?

Любые советы были бы очень признательны.

...