Я знаю, например, что с предложением Qubole Hive, в котором используются записные книжки Zeppelin, я могу использовать Spark SQL для выполнения собственных команд SQL для взаимодействия с таблицами Hive. Я могу читать из внешних таблиц и создавать внутренние таблицы или просто выполнять специальные запросы.
Я работаю над проектом в AWS. У меня есть данные в S3, с внешними таблицами, созданными в Афине. Я нашел статьи и последовал за ними, чтобы настроить некоторые ноутбуки Jupyter, но я не понимаю, как у меня могут быть записные книжки, использующие Spark SQL. Это возможно?
Если нет, то каков наилучший механизм в экосистеме AWS для инкапсуляции логики для создания внутренних таблиц из внешних таблиц для вторичной обработки данных.