В Hive у меня есть таблица, которая содержит два поля (lat и long).Я хотел бы найти топ N кратчайших записей для каждой записи в таблице.Я думаю, что я могу написать простой UDF (или использовать некоторую существующую библиотеку UDF), чтобы вычислить расстояние на основе широты и долготы с учетом пары широты и долготы.
Теперь, чтобы сделать это, мне нужно написать SQL, чтобы выбрать каждую пару записей в таблице.Например, если в таблице 4 записи (A, B, C и D), я хочу сгенерировать следующие 6 пар:
A, B
A, C
A, D
B, C
B, D
C, D
Заранее спасибо!