SQL Presto Query - получение всех возможных комбинаций строк? - PullRequest
0 голосов
/ 11 марта 2019

Мне интересно, как я могу получить все возможные комбинации таблицы с перекрестными соединениями?

Пример таблицы выглядит как

    DAY   Order  pickup_lat  pickup_long     dropoff_lat dropoff_long  created_time
 1/3/19  234e    32.69        -117.1          32.63      -117.08   3/1/19 19:00
 1/3/19  235d    40.73        -73.98          40.73       -73.99   3/1/19 23:21
 1/3/19  253w    40.76        -73.99          40.76       -73.99   3/1/19 15:26
 2/3/19  231y    36.08        -94.2           36.07       -94.21   3/2/19 0:14
 3/3/19  305g    36.01        -78.92          36.01       -78.95   3/2/19 0:09
 3/3/19  328s    36.76        -119.83         36.74       -119.79  3/2/19 4:33
 3/3/19  286n    35.76        -78.78          35.78       -78.74   3/2/19 0:43

Я хочу видеть все возможные комбинации заказов на основе их различий в времени создания заказа и расстоянии в милях как для получения, так и для возврата. Это возможно?

Я бы использовал great_circle_distance(pickup_lat,pickup_lng, pickup_1_lat, pickup_1_lng)*0.621371) для расчета расстояния как для пикапов, так и для посадок на расстоянии друг от друга.

и date_diff('minute', created_time, created_time_1) as order_creation_delta

Таким образом, что-то вроде любых 2-х заказов или пар заказов, которые созданы в течение 3 минут друг от друга и в 3 милях от места посадки друг друга и в 3 милях от места посадки друг друга.

    with data as 
( select
    a.business_day,
        a.delivery_uuid,
        a.order_created_time_utc,
        a.pickup_lat,
        a.pickup_lng,
        a.dropoff_lat,
        a.dropoff_lng
from integrated_delivery.managed_delivery_fact a
where a.business_day between (timestamp '2019-03-01') and (timestamp '2019-03-03')
    union
    select b.business_day as b_business_day,
        b.delivery_uuid as b_delivery_uuid,
        b.order_created_time_utc as b_order_created_time_utc,
        b.pickup_lat as b_pickup_lat,
        b.pickup_lng as b_pickup_lng,
        b.dropoff_lat as b_dropoff_lat, 
        b.dropoff_lng as b_dropoff_lng
from integrated_delivery.managed_delivery_fact b
where b.business_day between (timestamp '2019-03-01') and (timestamp '2019-03-03')
)

stats as 
( select abs(date_diff('minute', a.order_created_time_utc, b.order_created_time_utc)) as order_creation_difference,
         (great_circle_distance(a.pickup_lat, a.pickup_lng, b.pickup_lat, b.pickup_lng)*0.621371) as pickup_distance,
         (great_circle_distance(a.dropoff_lat, a.dropoff_lng, b.dropoff_lat, b.dropoff_lng)*0.621371) as dropoff_distance
from data
)
select a.delivery_uuid, b.delivery_uuid, order_creation_difference, pickup_distance, dropoff_distance
    from data a
        cross join data b  
        WHERE a.delivery_uuid <> b.delivery_uuid
        and order_creation_difference <3
        and pickup_distance < 3
        and dropoff_distance <3

У меня есть запрос, подобный приведенному выше, но я не уверен, смогу ли я вычислить значения как cte, если я объединяю таблицы ранее?

1 Ответ

0 голосов
/ 12 марта 2019

кажется, что вам нужно объединиться, а не объединить.

with a as (select * from your_table)
select * from your_table
inner join a on 
great_circle(a.lat, a.long, your_table.lat, your_table.long) < max_dist
and abs(date_diff('min', a. date, your_table. date)) < max_time
Объяснение

: inner join из двух таблиц выводит все и только комбинации строк, для которых условие после on выполняется. Вы также можете установить минимальное расстояние, чтобы исключить совпадения строки с самим собой.

...