Объект DataFrame не имеет атрибута split_frame - PullRequest
0 голосов
/ 11 июня 2019

Невозможно разделить кадр с помощью split_frame ().Фрейм данных может показать (), но я не могу разделить его.Пожалуйста, помогите.

Ниже приведен пример кода, который я использовал.

from h2o.estimators.random_forest import H2ORandomForestEstimator
from h2o.estimators.gbm import H2OGradientBoostingEstimator
from h2o.estimators.deeplearning import H2ODeepLearningEstimator
from h2o.estimators.glm import H2OGeneralizedLinearEstimator
from h2o.estimators.stackedensemble import H2OStackedEnsembleEstimator
from __future__ import print_function

temp = spark.read.option("header","true").option("inferSchema","true").csv("hdfs://bda-ns/user/august_week2.csv")

train,test,valid = temp.split_frame(ratios=[.75, .15])

Ожидается: ошибок нет.Данные разбиваются на тестовые и обучающие данные.Актуально:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/opt/cloudera/parcels/SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101/lib/spark2/python/pyspark/sql/dataframe.py", line 1182, in __getattr__
    "'%s' object has no attribute '%s'" % (self.__class__.__name__, name))
AttributeError: 'DataFrame' object has no attribute 'split_frame'
>>> train,test,valid = temp.split_frame(ratios=[.75, .15])
Traceback (most recent call last):
  File "/opt/cloudera/parcels/SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101/lib/spark2/python/pyspark/context.py", line 234, in signal_handler

1 Ответ

1 голос
/ 13 июня 2019

Вы можете использовать randomsplit на вашем кадре данных искры.

Если вы хотите использовать метод split_frame H2O-3, вам сначала нужно будет преобразовать вашу искровую рамку в рамку h2o. В этом случае вы можете использовать hc.as_h2o_frame(spark_df), где hc - ваш h2o_context (примечание: вам также нужно создать h2o_context, чтобы это работало).

...