Вложенная функция gapply (), dapply или spark_apply ()? - PullRequest
0 голосов
/ 02 мая 2018

У меня есть две отдельные таблицы Hive, в которых я хотел бы запустить очень сложный алгоритм сопоставления строк. Я хотел бы использовать SparkR или sparklyr, но я пытаюсь определить выполнимость вложенных операторов dapply, gapply или spark_apply. Я не видел ни одного примера вложенного приложения.

Постановка задачи: нечеткое сопоставление адресов в почтовых индексах. По сути, я уже сделал декартово объединение адресов из обоих наборов данных, где Zip = Zip. Но теперь у меня есть два столбца адресов, которые должны быть сопоставлены, и третий столбец адресов, которые необходимо сохранить как «GroupBy», чтобы ограничить расширенный набор потенциальных парных сравнений. Таким образом, первый «ключ» - это Zip, но затем я хочу использовать второй «ключ», чтобы отправить серию сравнений по одному адресу из column1, сопоставляя все возможные адреса в column2 (в том же Zip). Похоже, что для этого требуется одна из распределенных apply функций в SparkR или sparklyr, но каждая из них не выглядит так, как она позволяет, например, gapply(...,gapply()) или spark_apply(...,spark_apply()).

Кто-нибудь пробовал это или сталкивался с подобной проблемой?

...