Кто-нибудь может увидеть, что с этим не так:?
from pyspark.sql.functions import countDistinct, approxCountDistinct
rawData.select(approxCountDistinct("ApplicationID", rsd=0.05)).show()
Далее я использую функцию в коде, чтобы присвоить приблизительное число различных значений каждой переменной как:
stringFeaturesACD = []
for c in stringFeatures:
stringFeaturesACD\
.append((c,rawData.select(approxCountDistinct(c,0.1)).first()[0]))
Ошибка:
Py4JJavaError: Произошла ошибка при вызове o218.showString.
Помощь будет принята с благодарностью.Спасибо.