Я пытаюсь случайным образом выбрать 100 строк из моего PySpark Dataframe. Для этого я хотел бы использовать код, описанный в этом сообщении :
training_data= data.orderBy(F.rand()).limit(100)
Однако я получаю сообщение об ошибке:
AttributeError: 'function' object has no attribute 'rand'
Я импортировал rand () следующим образом:
from pyspark.sql.functions import rand as F
Я пытался импортировать rand так же, как описано в посте, но я получаю ошибку:
ModuleNotFoundError: No module named 'org'
Я также пытался использовать функцию просто как таковой:
training_data= data.orderBy(rand()).limit(100)
Но тогда я получаю следующее имя ошибки:
NameError: name 'rand' is not defined
Кто-нибудь знает, как это исправить? Я новичок в PySpark, и я думаю, что мне здесь не хватает чего-то очевидного. Обратите внимание, что я работаю над Databricks.
Спасибо