«Обогатить» Spark DataFrame из другого DF (или из HBase) - PullRequest
1 голос
/ 11 декабря 2019

Я не уверен, что это правильный заголовок, поэтому не стесняйтесь предлагать редактирование. Кстати, я действительно новичок в Scala и Spark.

По сути, у меня есть DF df_1, который выглядит примерно так:

| ID | name | city_id | | 0 | "abc"| 123 | | 1 | "cba"| 124 | ...

The city_idключ в огромной HBase:

123;Нью-Йорк;.... 124;Лос-Анджелес;.... и т. д.

Результат должен быть df_1:

| ID | name | city_id | | 0 | "abc"| New York| | 1 | "cba"| Los Angeles| ...

Мой подход заключался в создании внешней таблицы Hive поверх HBase с помощьюколонки мне нужны. Но опять же, я не знаю, как присоединиться к ним наиболее эффективным способом.

Полагаю, есть способ сделать это прямо из HBase, но опять же я не знаю как.

Любая подсказка приветствуется. :)

...