У меня есть две отдельные таблицы Hive, в которых я хотел бы запустить очень сложный алгоритм сопоставления строк. Я хотел бы использовать SparkR или sparklyr, но я пытаюсь определить выполнимость вложенных операторов dapply
, gapply
или spark_apply
. Я не видел ни одного примера вложенного приложения.
Постановка задачи: нечеткое сопоставление адресов в почтовых индексах. По сути, я уже сделал декартово объединение адресов из обоих наборов данных, где Zip = Zip. Но теперь у меня есть два столбца адресов, которые должны быть сопоставлены, и третий столбец адресов, которые необходимо сохранить как «GroupBy», чтобы ограничить расширенный набор потенциальных парных сравнений. Таким образом, первый «ключ» - это Zip, но затем я хочу использовать второй «ключ», чтобы отправить серию сравнений по одному адресу из column1, сопоставляя все возможные адреса в column2 (в том же Zip). Похоже, что для этого требуется одна из распределенных apply
функций в SparkR
или sparklyr
, но каждая из них не выглядит так, как она позволяет, например, gapply(...,gapply())
или spark_apply(...,spark_apply())
.
Кто-нибудь пробовал это или сталкивался с подобной проблемой?