Я не уверен, что это правильный заголовок, поэтому не стесняйтесь предлагать редактирование. Кстати, я действительно новичок в Scala и Spark.
По сути, у меня есть DF df_1
, который выглядит примерно так:
| ID | name | city_id |
| 0 | "abc"| 123 |
| 1 | "cba"| 124 |
...
The city_id
ключ в огромной HBase:
123;Нью-Йорк;.... 124;Лос-Анджелес;.... и т. д.
Результат должен быть df_1
:
| ID | name | city_id |
| 0 | "abc"| New York|
| 1 | "cba"| Los Angeles|
...
Мой подход заключался в создании внешней таблицы Hive поверх HBase с помощьюколонки мне нужны. Но опять же, я не знаю, как присоединиться к ним наиболее эффективным способом.
Полагаю, есть способ сделать это прямо из HBase, но опять же я не знаю как.
Любая подсказка приветствуется. :)