streamingkmeansПримеры кластерных центров все одинаковы - PullRequest
0 голосов
/ 17 сентября 2018

У меня проблема при запуске примера mllib StreamingKMeansExample Центры кластеров одинаковы для первых 2-3 файлов, которые я использую для обучения своей модели.И прогнозируемые значения всегда равны нулю для каждого файла теста, который я использую.

Вот входные данные для поезда и теста, которые я использую:

В качестве данных поезда (пример формата)

[1.2,0.3]

в качестве тестовых данных (пример формата)

(1.0, [1.2,0.2])

команда отправки выглядит следующим образом:

./bin/spark-submit --master yarn-client --class StreamingKMeansExample |
/home/hduser/streamingkmeans_2.11-0.1.jar hdfs://host:port/user/hduser/train/ |
hdfs://host:port/user/hduser/test/ 1 5 2

когда я печатаю

model.latestModel().clusterCenters 

, вывод:

C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341316315,62.54858682634605]

и sbt это:

name := "streamingkmeans"

version := "0.1"

scalaVersion := "2.11.6"

libraryDependencies ++= Seq(
     "org.apache.spark" %% "spark-core" % "2.2.0" % "provided",
     "org.apache.spark" %% "spark-streaming" % "2.2.0",
     "org.apache.spark" %% "spark-mllib" % "2.2.0"
)

что я делаю не так?код взят из этой ссылки

...