Я написал простой код в pyspark для блоков данных Azure (по этой ссылке
дерево решений в pyspark -)
%python
x='x'
z='y'
data = pd.DataFrame({'a':[1,2,3,41,2,6,2,3,56,1,2,5,1,2,45,1,3,2], 'b':[x,z,x,x,z,x,z,x,x,x,z,z,x,z,z,x,x,x]})
# Train a DecisionTree model.
model = DecisionTree.trainClassifier(data, numClasses=2, categoricalFeaturesInfo={},impurity='gini', maxDepth=5, maxBins=32)
Я сохранил параметры по умолчанию. Во время работы я получаю сообщение об ошибке -
Ошибка типа: first () отсутствует 1 обязательный позиционный аргумент: 'смещение'
Я не уверен, на какой аргумент ссылается эта ошибка, а также где мне нужно указать свою зависимую переменную в классификаторе?