У нас есть скрипт, который отображает данные в фрейм данных (мы используем pyspark).Данные поступают в виде строки, и с ней выполняются некоторые другие, иногда дорогостоящие вещи, но как часть операции (вызывая withColumn) мы выполняем приведение к окончательному типу данных.
У меня есть требование кскажите, произошло ли усечение, но мы не хотим потерпеть неудачу, если оно произойдет.Мы просто хотим, чтобы число знало, сколько строк в каждом переведенном столбце (их около 300) потерпело неудачу.
Моей первой мыслью было, чтобы каждый столбец проходил через UDF, который будет выполнять тест, и выводбудет массив со значением и значением, если он прошел проверки типа данных.Я бы тогда сделал 2 выбора.Один выбирает необработанные значения из массива, а другой объединяет пропуски.Но это похоже на неаккуратное решение.Я довольно новичок в мире pyspark / hadoop ... хотел бы знать, есть ли лучший (может быть стандартный?) Способ сделать это.