TypeError: first () отсутствует 1 обязательный позиционный аргумент: 'offset' в DecisionTree.trainClassifier в Pyspark - PullRequest
0 голосов
/ 02 апреля 2019

Я написал простой код в pyspark для блоков данных Azure (по этой ссылке дерево решений в pyspark -)

%python
x='x'
z='y'
data = pd.DataFrame({'a':[1,2,3,41,2,6,2,3,56,1,2,5,1,2,45,1,3,2], 'b':[x,z,x,x,z,x,z,x,x,x,z,z,x,z,z,x,x,x]})

# Train a DecisionTree model.
model = DecisionTree.trainClassifier(data, numClasses=2, categoricalFeaturesInfo={},impurity='gini', maxDepth=5, maxBins=32)

Я сохранил параметры по умолчанию. Во время работы я получаю сообщение об ошибке -

Ошибка типа: first () отсутствует 1 обязательный позиционный аргумент: 'смещение'

Я не уверен, на какой аргумент ссылается эта ошибка, а также где мне нужно указать свою зависимую переменную в классификаторе?

enter image description here

1 Ответ

2 голосов
/ 02 апреля 2019

trainClassifier принимает первый параметр за СДР.Здесь данные, которые вы предоставили, являются фреймом данных pandas.Вы видите ошибку, потому что first() - это метод, который может применяться к искровым объектам.

Согласно документации , Данные обучения: СДР изLabeledPoint.Метки должны принимать значения {0, 1,…, numClasses-1}.

Следовательно, конвертируйте data в СДР, и это должно работать нормально.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...