Вопросы с тегом Apache-искровой mllib

0 голосов

0 ответов

Как я могу оптимизировать код, просто прочитав таблицы один раз в следующем коде PySpark?

У меня есть фрейм данных PySpark (D1) с 30+ миллионами строк, который выглядит следующим образом:...

yguw / 23 сентября 2019

0 голосов

1 ответ

PySpark - невозможно отобразить прогнозы модели случайного леса (не удалось выполнить пользовательскую функцию ($ anonfun $ 1: (vector) => vector))

Я использую PySpark (Python 3.5.2 и Spark 2.2.0.2.6.4.0-91), и у меня есть Dataframe прогнозируемых...

Olscream / 20 сентября 2019

0 голосов

1 ответ

Scala присваивает значение в операторе if else

Довольно плохо знаком с scala. У меня есть оператор if else, который на основе условия присваивает...

jxn / 19 сентября 2019

0 голосов

0 ответов

Задание прервано Ошибка при вызове o67.sql

Я запускаю запрос на сохранение таблицы в Hive, но она не работает. В чем может быть проблема?...

hajarmerii / 11 июля 2019

1 голос

2 ответов

Как распределить код и набор данных на рабочие узлы?

Я работал с набором данных Movielens (20 миллионов записей) и использовал совместную фильтрацию в...

Salma z / 29 июня 2019

0 голосов

0 ответов

Почему Spark убивает моих исполнителей во время моего сходства?

Я пытаюсь выполнить сходство 16M против 1000 наборов данных.На определенном этапе мои исполнители...

3nomis / 19 июня 2019

0 голосов

0 ответов

Как исправить NULL при подгонке train_data в модели линейной регрессии?

Я использую spark.ml для запуска модели линейной регрессии.Но всякий раз, когда я подгоняю свои...

Japneet Singh / 18 июня 2019

1 голос

0 ответов

Как сопоставить значения TFIDF с оригинальными словами

Я следовал этому примеру для вычисления TFIDF каждого слова в моих документах.Однако мой...

scarface / 13 мая 2019

0 голосов

1 ответ

Как получить тему с помощью pyspark LDA

Я использовал LDA для поиска темы ref: из pyspark.ml.clustering import LDA lda = LDA (k = 30, seed...

Arun Gunalan / 13 мая 2019

0 голосов

0 ответов

Можно ли каким-либо образом настроить приведенный ниже код Pyspark MLib, который рассчитывает квантили для повышения производительности?

Я пытаюсь найти квантили для каждого столбца в таблице для различных фирм, использующих спарк 1.6 У...

Vishwanath560 / 24 апреля 2019

1 голос

0 ответов

Как преобразовать искровой датафрейм [double, String] в LabeledPoint?

Ниже приведен код, с которым я экспериментирую.Я пытаюсь конвертировать SalesData в CSV в DF, а...

Mozhi / 14 апреля 2019

0 голосов

0 ответов

Объяснение результатов многослойного классификатора персептрона

Я хочу получить правильную интерпретацию результата. исходный набор данных (поле метки содержит...

Aleksey N Yakushev / 12 апреля 2019

0 голосов

0 ответов

org.apache.spark.SparkException Задание не сериализуемо. Причина: java.io.NotSerializableException в ForeachPartitionFunction

test.foreachPartition(new ForeachPartitionFunction<Row>() { public void...

Naeem Ullah / 27 марта 2019

0 голосов

0 ответов

apache spark (в java) машинное обучение com.github.fommil.netlib.F2jBLAS.dscal (F2jBLAS.java:176) ошибка

В java я хочу использовать библиотеку машинного обучения apache spark и использовать пример кода из...

Sian Yuan / 27 марта 2019

0 голосов

1 ответ

Неэффективно ли использовать UDF для вычисления расстояния между двумя векторами?

Я реализовал алгоритм классификации в Spark, который включает в себя расчет расстояний между...

oulenz / 26 февраля 2019

0 голосов

0 ответов

AttributeError: объект 'NoneType' не имеет атрибута 'setCallSite' на model.surrogateDF

Я получаю эту ошибку, когда пытаюсь преобразовать значения в surrogateDF свойстве pyspark.ml

Jeff Saremi / 25 февраля 2019

0 голосов

0 ответов

spark scala Машинное обучение Не удалось найти значение по умолчанию для порогов

Когда я выполняю свой код локально, с тем же набором данных, хранящимся в локальной файловой...

SimbaPK / 04 января 2019

0 голосов

1 ответ

Почему нативные библиотеки blas / lapack для netlib-java не дают улучшения производительности?

Я использую этот кусок кода для расчета рекомендаций по свечам: SparkSession spark = SparkSession

Stepan Yakovenko / 24 декабря 2018

0 голосов

1 ответ

Динамическая подготовка и выполнение запросов в спарк

В Spark этот json находится в фрейме данных (DF), теперь нам нужно перейти к таблицам (в json на...

swcraft / 27 ноября 2018

0 голосов

2 ответов

Apache Spark ML Pipeline: фильтрация пустых строк в наборе данных

В моем Spark ML Pipeline (Spark 2.3.0) я использую RegexTokenizer следующим образом: val...

Igorock / 19 ноября 2018

0 голосов

0 ответов

Python: самый быстрый инструмент для регулярного вычисления матричных косинус / евклидовых расстояний (ElasticSearch / Spark / ...)

У меня есть веб-приложение, которое используется как API для другого приложения для интенсивных...

debzsud / 13 ноября 2018

0 голосов

0 ответов

Как получить карту словарного запаса-> подсчета в scala spark CountVectorizer ()?

Как получить токены ---- количество [a, b, c] ---- [29,3,76] из словаря искры CountVectorizer?

yang yang / 08 ноября 2018

0 голосов

1 ответ

Spark SQL как сервис

В настоящее время разрабатывается приложение, которое извлекает данные из текстовых файлов...

Jayendran Gurumoorthy / 02 ноября 2018

0 голосов

0 ответов

Spark ML: Насколько большим может быть вектор для Correlation.corr () - Pearson?

Я использую VectorAssembler на кадре данных из 240 столбцов (и 2 строки), а затем я делаю...

Des0lat0r / 24 октября 2018

0 голосов

1 ответ

Java Spark.VectorAssembler не принимает String и Null

У меня большой проект со Spark с использованием Java.Я прочитал CSV-файл с более чем 1.000.000...

CCantona / 28 сентября 2018