Вопросы с тегом апаш-искра

0 голосов

0 ответов

Spark spark.sql.session.timeZone не работает с источником JSON

При чтении из файла JSON зависит ли Spark v2.3.1 от местного часового пояса? Мой...

VB_ / 11 ноября 2018

0 голосов

1 ответ

Есть ли способ преобразовать искровой фрейм данных, сгенерированный из оператора SQL в RDD?

если я использую этот иск SQL: df = spark.sql('SELECT col_name FROM table_name') вернет...

Miguel 2488 / 11 ноября 2018

0 голосов

0 ответов

искра - как узнать, какой исполнитель потерпел неудачу во время выполнения задания и избежать их?

фон: Я запускаю искровую работу в огромном кластере с большими рабочими нагрузками, в котором...

skywalkerytx / 11 ноября 2018

0 голосов

1 ответ

Spark-Scala Невозможно определить схему (отложить проверку входного пути в DataSource)

SPARK-26039 При загрузке пустой папки orc. В любом случае, чтобы обойти это. val df = spark.read

VermaAbhishek / 11 ноября 2018

0 голосов

1 ответ

прямая ссылка scala распространяется на определение значения

Я пытаюсь типизировать столбцы во фрейме данных df_trial, в котором все столбцы представлены в виде...

Vamshi Manda / 11 ноября 2018

0 голосов

1 ответ

Spark - чтение разделенных данных из S3 - как происходит разделение?

Когда я использую Spark для чтения нескольких файлов из S3 (например, каталог со многими файлами...

user976850 / 11 ноября 2018

0 голосов

1 ответ

SparkSQL подзапрос и производительность

Чтобы пользователи системы могли динамически создавать (через веб-интерфейс приложения) разные...

alexanoid / 11 ноября 2018

0 голосов

1 ответ

Используя Spark, как добавить столбец в конце

Ниже мой набор данных с использованием искры. Я хочу добавить еще один столбец в конце с именем...

Rahul Wagh / 11 ноября 2018

0 голосов

1 ответ

Сколько всего виртуальных ядер требуется для обработки 100 ГБ данных в спарк

Например, если я выберу 16 vcore с 10 рабочими узлами, то есть 16-1 (одно ядро для хранения...

Ram / 11 ноября 2018

0 голосов

1 ответ

apache spark загрузить внутреннюю папку

import findspark findspark.init('C:\spark') from pyspark.sql import SparkSession spark =...

tim software / 10 ноября 2018

0 голосов

0 ответов

Оператор Spark SQL NOT и вложенные запросы с нулевым предикатом нельзя использовать во вложенных условиях.

Следующий запрос Spark SQL работает нормально: ((country IN (FROM medium_countries) ) AND (country...

alexanoid / 10 ноября 2018

0 голосов

1 ответ

Является ли hashCode перечисления scala одинаковым на разных JVM (spark)?

Я прочитал, что хорошей практикой для enum является scala: Я намеренно расширяю класс с помощью...

KyBe / 10 ноября 2018

0 голосов

1 ответ

Не сериализуемый результат: org.apache.hadoop.io.IntWritable при чтении файла последовательности с помощью Spark / Scala

Чтение файла последовательности с Int и String логически, тогда, если я сделаю это: val...

thebluephantom / 10 ноября 2018

0 голосов

0 ответов

pyspark.ml: ошибка исключения при передаче больших данных методу fit ()

Я использую библиотеки pyspark.ml для создания и обучения моделей для классификации твитов. Я...

ebt_dev / 10 ноября 2018

0 голосов

0 ответов

Как группировать последовательности с одинаковой регулярностью, используя искру

Чтобы упростить входные параметры и код, я сгенерировал список ввода (в реальном времени это много...

Sergii / 10 ноября 2018

0 голосов

1 ответ

Невозможно установить Optimus для Python Spark для очистки данных

Я исследовал приложение для очистки данных, которое можно использовать со Spark. Я столкнулся с...

user485868 / 10 ноября 2018

0 голосов

0 ответов

Прозрачный кеш при запросе временных рядов с помощью Apache Spark

У нас есть данные временных рядов, такие как ежедневный файл паркета размером 3 ГБ в HDFS...

Thomas Decaux / 10 ноября 2018

0 голосов

0 ответов

Есть ли лучший способ загрузить огромный файл tar в Spark, избегая при этом OutOfMemoryError?

У меня есть один tar-файл mytar.tar размером 40 ГБ. Внутри этого tar файла находятся 500 tar.gz...

Jane Wayne / 10 ноября 2018

0 голосов

0 ответов

Измените имя фрейма данных при записи (как .csv) в хранилище BLOB-объектов с помощью блоков данных Azure

Я создал кластер в блоках данных Azure. В его DBFS (файловая система Databricks) я смонтировал...

FelipePerezR / 10 ноября 2018

0 голосов

1 ответ

Столбец Apache Spark с собранной информацией и объединением строк

У меня есть следующий DataFrame: +------+------------------+--------------+-------------+ | name|...

alexanoid / 09 ноября 2018

0 голосов

0 ответов

Spark Streaming работает в локальном режиме, но «этапы не выполняются» с «не удалось инициализировать класс» в режиме клиент / кластер

У меня есть потоковое приложение Spark + Kafka, которое отлично работает в локальном режиме, однако...

alex / 09 ноября 2018

0 голосов

1 ответ

Spark: использование параметра драйвера-памяти

Когда я отправляю эту команду, моя работа завершилась с ошибкой «Контейнер работает за пределами...

andret8 / 09 ноября 2018

0 голосов

0 ответов

Может ли sortByKey в apache-spark перемешать даже с указанным разделителем диапазона?

val vectors = [SOME RDDs] val clusterised = vectors.groupBy(...) // Partitioning val...

Zed Ekkes / 09 ноября 2018

0 голосов

2 ответов

Spark: чтение файлов CSV из списка путей в строке DataFrame

У меня есть Spark DataFrame следующим образом: # --------------------------------- # - column 1 - .

ma3oun / 09 ноября 2018

0 голосов

3 ответов

Spark SQL добавить столбец / обновить накопить значение

У меня есть следующий DataFrame: name,email,phone,country...

alexanoid / 09 ноября 2018