Я хотел бы переписать этот псевдокод sql на sql или java
select a, collect_list(b)
from Authors a left join Books b
group by a
, но, похоже, в sql я могу работать только с столбцами и не могу как с этим бороться. Кроме того, есть несколько вопросов:
- Предпочтительнее ли использовать sql вместо java (scala не вариант)? В конце концов, я буду использовать Spark с kafka.
- Что лучше использовать
Dataset<Author>
или Dataset<Row>
?
Изменить: чтобы быть более точным относительно цели. У меня есть несколько наборов данных, таких как "Лица, телефоны, адреса" и т. Д. c. Собственно будут потоки кафки. Отношение не является обязательным - один ко многим. Мне нужно присоединиться к этим наборам данных по person.id, чтобы собрать все соответствующие данные (телефоны, адреса) и сохранить все в базу данных, возможно, используя спящий режим