Вопросы с тегом апаш-искровой mllib

0 голосов

2 ответов

Почему я получаю несоответствие типов в Scala Spark?

Сначала я читаю текстовый файл и превращаю его в RDD [(String, (String, Float))]: val data = sc

nick_liu / 21 мая 2018

0 голосов

1 ответ

Кодировать столбец с целым числом в pyspark

Мне нужно закодировать столбец в большой DataFrame в pyspark (spark 2.0).Все значения практически...

Dmitriy Kolomiets / 20 мая 2018

0 голосов

1 ответ

Как передать SparseVectors в `mllib` в pyspark

Я использую pyspark 1.6.3 через Zeppelin с python 3.5. Я пытаюсь реализовать скрытое распределение...

kingledion / 18 мая 2018

0 голосов

2 ответов

Как рассчитать точность модели кластеризации K-средних из значения «В пределах заданной суммы квадратов ошибок» в Spark?

Я работаю со Spark и задаюсь вопросом, как получить значение точности для созданной модели...

Ramkumar / 17 мая 2018

0 голосов

0 ответов

Что такое LabeledPoint RDD?Как распечатать данные в нем?

Я создаю СДП с меткой, сопоставляя label и feature-set. Теперь я хочу распечатать данные в формате...

Ani Menon / 14 мая 2018

0 голосов

0 ответов

Как управлять набором данных с большим количеством столбцов?

Я работаю со значениями данных, поступающими от датчиков. Эти данные чрезвычайно велики. Если я...

Chaouki / 11 мая 2018

0 голосов

1 ответ

Добавить одну строку из одного набора данных в другой набор данных в Spark Scala

Существует два набора DataFrame, один из которых «Обучающий набор», другой - «Тестовый набор». Что...

Cheolwon_Jang / 10 мая 2018

0 голосов

1 ответ

Функции преобразования функции sparklyr приводят к ошибке

У меня проблемы с использованием функций ft_ .. из пакета sparklyr R.ft_bucketizer работает, а...

Flo585 / 10 мая 2018

0 голосов

1 ответ

Ошибка получения аргумента в ParamgridBuilder в Pyspark

В настоящее время я реализую модель классификации Gradientboost в Pyspark. На основе набора данных...

Kalyan / 09 мая 2018

0 голосов

1 ответ

Получение AttributeError: у объекта 'OneHotEncoder' нет атрибута '_jdf in pyspark'

Я пытаюсь реализовать алгоритм повышения градиента для набора данных kaggle в pyspark для целей...

Kalyan / 08 мая 2018

0 голосов

2 ответов

Итерация Spark Dataframe работает медленно

Я хотел бы проверить данные существующего столбца и создать новый столбец на основе определенных...

user1182370 / 08 мая 2018

0 голосов

0 ответов

ошибка памяти при вычислении инверсии большой матрицы в искре

Я пытаюсь вычислить инверсию 25 ГБ матрицы в искре, я работаю в локальном режиме с машиной 6 ГБ в...

Lamine Lazreg / 05 мая 2018

0 голосов

1 ответ

PySpark - py4j.protocol.Py4JJavaError, при запуске модели линейной регрессии искры на моем ноутбуке win10

Я пытаюсь запустить PySpark Script, который строит модель линейной регрессии с PySpark и Spark...

David Li / 04 мая 2018

0 голосов

0 ответов

Сбой программы Pyspark в теле функции

Я новичок в реализации PySpark алгоритмов ML. Я пытаюсь создать модель классификации, которая может...

SunDante / 02 мая 2018

0 голосов

1 ответ

Spark MLlib в Java не работает

Моя проблема в том, что я скачал Apache Spark для Java и создал зависимость: <dependency>...

FNTE / 30 апреля 2018

0 голосов

1 ответ

PySpark MLlib: AssertionError: Классификатор не расширяется от HasRawPredictionCol

Я новичок в Искре. Я хочу использовать мультиклассовую классификацию для SVM в PySpark MLlib. Я...

Sarsoura / 30 апреля 2018