Spark self join (иерархия)

давайте предположим, что у нас есть таблица "hier" (parent_id bigint, child_id bigint)

Запрос, который мне нужно построить, выглядит следующим образом:

Select * from hier h1
         join hier h2 on h1.parent_id = h2.child_id
         join hier h3 on h2.parent_id = h3.child_id
         join hier h4 on h3.parent_id = h4.child_id

Глубина всегда одинакова, запрос is stati c

Есть ли способ избежать сканирования таблицы hier (она довольно большая в моем случае) четыре раза?

я ограничен pyspark для реализации

Spark self join (иерархия)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark self join (иерархия)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы