В масштабе мое приложение Spark будет работать с большим объемом данных (много ТБ).Многие из моих преобразований выполняют сложные задачи для каждой записи.Я хотел бы знать, какие записи выдают ошибку при каждом преобразовании по причинам прослеживаемости.Чем больше я об этом думаю, тем больше похоже, что искра не предназначена для этого.Единственное, что я могу сделать, - это обернуть каждую запись в Try (), а затем разбить получившийся RDD на Successes и Failures и записать вывод.И то, и другое требует гораздо больше времени для искры, и требует кэширования результирующего RDD, поскольку я разделяю результирующий RDD на два меньших RDD (успехи и неудачи).Есть ли в вычислительном отношении дешевый способ достижения моих целей?