Spark self join (иерархия) - PullRequest
       30

Spark self join (иерархия)

0 голосов
/ 06 апреля 2020

давайте предположим, что у нас есть таблица "hier" (parent_id bigint, child_id bigint)

Запрос, который мне нужно построить, выглядит следующим образом:

Select * from hier h1
         join hier h2 on h1.parent_id = h2.child_id
         join hier h3 on h2.parent_id = h3.child_id
         join hier h4 on h3.parent_id = h4.child_id

Глубина всегда одинакова, запрос is stati c

Есть ли способ избежать сканирования таблицы hier (она довольно большая в моем случае) четыре раза?

я ограничен pyspark для реализации

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...