У меня проблема при запуске примера mllib StreamingKMeansExample Центры кластеров одинаковы для первых 2-3 файлов, которые я использую для обучения своей модели.И прогнозируемые значения всегда равны нулю для каждого файла теста, который я использую.
Вот входные данные для поезда и теста, которые я использую:
В качестве данных поезда (пример формата)
[1.2,0.3]
в качестве тестовых данных (пример формата)
(1.0, [1.2,0.2])
команда отправки выглядит следующим образом:
./bin/spark-submit --master yarn-client --class StreamingKMeansExample |
/home/hduser/streamingkmeans_2.11-0.1.jar hdfs://host:port/user/hduser/train/ |
hdfs://host:port/user/hduser/test/ 1 5 2
когда я печатаю
model.latestModel().clusterCenters
, вывод:
C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341316315,62.54858682634605]
и sbt это:
name := "streamingkmeans"
version := "0.1"
scalaVersion := "2.11.6"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "2.2.0" % "provided",
"org.apache.spark" %% "spark-streaming" % "2.2.0",
"org.apache.spark" %% "spark-mllib" % "2.2.0"
)
что я делаю не так?код взят из этой ссылки