Я работаю над своей докторской диссертацией, и у меня возникли три важных вопроса по Apache Spark:
- Есть ли способ написать настраиваемое соединение (не имеет значения равное или любое другой тип соединения) для Spark SQL и применить его к наборам данных?
- Представьте себе, есть набор заданий, скажем, соединить два набора данных, которые нужно выполнить. Как можно было бы написать свой собственный диспетчер исполнителей задач, чтобы я мог отправлять две одинаковые задачи, где вторая является просто зарезервированной задачей и не должна обрабатываться до определенного времени и может запускаться по запросу?
- Можно ли написать собственный обработчик неудачных заданий для отслеживания невыполненных задач и выполнения тех же задач с определенными переменными?