Вопросы с тегом апаш-искра

0 голосов

0 ответов

Прикладная схема на тему кафки JSON дает все пустые поля

Я использую набор инструментов hortonworks и пытаюсь проанализировать данные json, поступающие из...

John / 01 ноября 2018

0 голосов

1 ответ

В Apache Beam, как обрабатывать исключения / ошибки на уровне Pipeline-IO

Я использую бегущий искровой разрядник в качестве бегунка трубопровода в Apache Beam и обнаружил...

jithu / 01 ноября 2018

0 голосов

0 ответов

Как работать на СДР по разделам?

Я хотел бы перераспределить данные с RDD[LabeledPoint] на K разделов и использовать раздел K для...

user1269298 / 01 ноября 2018

0 голосов

2 ответов

Сервер Spark Thrift загружает полный набор данных в память перед передачей через JDBC

Сервер Spark Thrift пытается загрузить полный набор данных в память перед передачей через JDBC, на...

Triffids / 01 ноября 2018

0 голосов

0 ответов

Как обрабатывать много файлов кусками в спарк

У меня есть список файлов (миллионы маленьких файлов), Я хочу обработать их кусками (100K за раз),...

DarkSpark / 01 ноября 2018

0 голосов

1 ответ

Код Pyspark работает медленнее, если импортируется из пакета по сравнению с простым кодом без импорта

Я сталкиваюсь со специфической проблемой при тестировании производительности моего кода pyspark. Я...

Sandeep Kumar Roy / 01 ноября 2018

0 голосов

1 ответ

Отправка работы Spark в Amazon EMR

Я собираюсь попробовать EMR и впредь изучать документацию прямо сейчас. Я немного смущен процессом...

MaatDeamon / 01 ноября 2018

0 голосов

0 ответов

Spark Streaming Kafka Issue

Я новичок в интеграции Spark и Kafka и столкнулся со странной проблемой. Код отлично работает на...

Bab / 01 ноября 2018

0 голосов

1 ответ

Как вывести список объектов S3 параллельно в PySpark, используя flatMap ()?

У меня есть фрейм данных, где каждая строка содержит префикс, указывающий на местоположение в S3. Я...

Liz Bennett / 01 ноября 2018

0 голосов

0 ответов

Spark регулярное выражение с группой без захвата до и после матчей не работает, как ожидалось

Я ломал голову, пытаясь заставить это регулярное выражение работать. После долгого поиска в Google...

luvrock / 01 ноября 2018

0 голосов

2 ответов

Как преобразовать DataFrame Scala Spark в LinkedHashMap [String, String]

Ниже мой фрейм данных: val myDF= spark.sql("select company, comp_id from my_db.my_table")...

srini / 01 ноября 2018

0 голосов

2 ответов

Преобразование столбцов данных Spark с массивом объектов JSON в несколько строк

У меня есть потоковые данные JSON, структуру которых можно описать с помощью класса case ниже case...

Hasif Subair / 31 октября 2018

0 голосов

1 ответ

Измерить время предсказания алгоритмов классификации MLLIB.

Я пытаюсь измерить время обучения и прогнозирования алгоритмов классификации MLlib. Сейчас я...

Dawid Kunert / 31 октября 2018

0 голосов

3 ответов

Разделить строку в столбце искровых данных по группам захвата регулярных выражений

Учитывая приведенный ниже фрейм данных, я хотел разбить столбец чисел на массив из 3 символов на...

Shadab Shariff / 31 октября 2018

0 голосов

0 ответов

тренировать большое количество моделей

У меня около 60 миллионов записей по 10К продукции, связанной с заказами и данными о доставке. Я...

user3476463 / 31 октября 2018

0 голосов

0 ответов

Производительность чтения орков Apache Spark при чтении большого количества маленьких файлов

При чтении большого количества файлов орков из HDFS в каталоге spark не запускаются никакие задачи...

Giri / 31 октября 2018

0 голосов

0 ответов

Получение отрицательных прогнозов с LinearRegressionWithSGD в версии 1.6

package ml_prj_01_01 import org.apache.spark.SparkConf import org.apache.spark.SparkContext import...

ananya joshi / 31 октября 2018

0 голосов

1 ответ

org.apache.spark.sql.AnalysisException: запись не может быть вызвана при потоковом наборе данных / DataFrame

Я пытаюсь записать набор данных Spark Structured Streaming (2.3) в ScyllaDB (Cassandra). Мой код...

Chris Snow / 31 октября 2018

0 голосов

1 ответ

Как построить динамическую строку запроса для выполнения на кадре данных spark-sql 2.3.1?

У меня есть требование получить условие where, переданное пользователем в качестве аргументов...

Shyam / 31 октября 2018

0 голосов

1 ответ

Как обрабатывать данные параллельно, но записывать результаты в один файл в Spark

У меня есть работа Spark, которая: Считывает данные из hdfs Проводит ли интенсивное преобразование...

ArtemArapov / 31 октября 2018

0 голосов

0 ответов

Оптимизирована ли «группа по» в искровом SQL?

Объединяются ли данные в каждом разделе? Как мы все знаем, если использовать redubyKey , данные...

Shaokai Li / 31 октября 2018

0 голосов

3 ответов

Набор данных Spark - Как создать новый столбец, изменив существующее значение столбца

У меня есть набор данных, как показано ниже Dataset<Row> dataset = ... dataset.show() | NAME...

Nithin Satheesan / 31 октября 2018

0 голосов

1 ответ

Что произойдет с широковещательной переменной Spark, если один из узлов заполнен

Я только начал работать над искрой и начинаю. Q. Предположим, что мы передали небольшую таблицу, и...

Dhruv / 31 октября 2018

0 голосов

1 ответ

Использование coalesce (1) занимает слишком много времени для записи набора данных в s3

Я использую coalesce (1) для записи набора записей в корзину s3 в процессе csv. который занимает...

Sandeep kushwaha / 31 октября 2018

0 голосов

2 ответов

Загадочный 'pyarrow.lib.ArrowInvalid: значение с плавающей запятой усечено' ОШИБКА при использовании toPandas () в DataFrame в pyspark

Я использую toPandas () для DataFrame, который не очень большой, но я получаю следующее исключение:...

Hao / 31 октября 2018