Вопросы с тегом апаша-искра

0 голосов

1 ответ

Загрузка geoJSON в pyspark с проверкой схемы

Я пытаюсь создать схему для проверки GeoJSON загружаемых файлов: validSchema = StructType([...

simon_dmorias / 12 июня 2018

0 голосов

0 ответов

Pyspark 2.2.0, преобразующий Dataframe в RDD, дает другой результат

У меня проблема при преобразовании DataFrame в RDD.Кадр данных изначально создается из файла CSV:...

ed2412 / 12 июня 2018

0 голосов

0 ответов

Перезапись вставки Spark в таблицу динамических разделов не работает должным образом

Я пытаюсь объединить множество маленьких файлов, сгенерированных в один больший.Мои файлы в...

Hemakshi Sachdev / 12 июня 2018

0 голосов

1 ответ

Как dataproc работает с облачным хранилищем Google?

Я ищу работу Google DataProc с GCS.Я использую pyspark dataproc.Данные считываются и записываются в...

MANISH ZOPE / 12 июня 2018

0 голосов

1 ответ

Удаление подчиненных узлов при исполнении в Spark

Можно ли как-то сказать главному узлу не назначать больше задач определенному рабочему узлу в...

sam93 / 12 июня 2018

0 голосов

1 ответ

Параллельная обработка в Писпарке

У меня большой набор данных из 5 миллионов элементов, состоящий из их идентификатора, стоимости и т

Aman / 11 июня 2018

0 голосов

1 ответ

Команда Spark-submit -class не найдена?

Я управляю проектом с кафкой и Apache spark.Чтобы запустить мой поток kafka, я запускаю эту команду...

Nespony / 11 июня 2018

0 голосов

1 ответ

Как преобразовать элементы массива в значения столбцов RDD

Я готовлюсь к использованию встроенной функции CSV-печати в искровом фрейме данных (не в pandas).У...

Geoffrey Anderson / 11 июня 2018

0 голосов

1 ответ

Создание массивов вложенных объектов с помощью ES-Spark Connector

У меня есть Spark DataFrame схемы: |-- ROW_ID: string (nullable = true) |-- SUBJECT_ID: string...

mongolol / 11 июня 2018

0 голосов

1 ответ

Spark - группировка и подсчет по одинаковым строкам (Scala или Pyspark)

У меня есть около 15 миллионов строк в DataFrame, которые мне нужно проанализировать.То, что я...

HMan06 / 11 июня 2018

0 голосов

0 ответов

Ошибка: не найдено: значение SparkSession

Я просто проследил за получением стартовой страницы Spark и попытался запустить simpleApp. My Spark...

Sam / 11 июня 2018

0 голосов

1 ответ

Разъем Spark Cassandra - доступ к RDD, где условия

Давайте предположим, что у меня есть RDD[Foo], где case class Foo(bar: String, baz: Int), и у меня...

jfu / 11 июня 2018

0 голосов

1 ответ

Как преобразовать шестнадцатеричный десятичный столбец в scala в int

Я пытался использовать функцию conv, как я видел в некоторых примерах, но у меня не работает.Я не...

estelab / 10 июня 2018

0 голосов

0 ответов

Как сделать запрос и объединить данные CSV с данными Hbase в Spark Cluster в Azure

В Microsoft Azure мы можем создать кластер Spark в Azure HDInsight и создать кластер Hbase в Azure...

user2575502 / 10 июня 2018

0 голосов

1 ответ

Исключить пустые значения в столбце при использовании Windows разделить столбец в Pyspark

У меня есть кадр данных, как показано ниже в pyspark. +-----+---+---+----+ |tests|val|asd|cnty|...

Question_bank / 10 июня 2018

0 голосов

0 ответов

Может ли параметр ReduceByKey изменить первый аргумент?

PairRDDFunctions.aggregateByKey скалярные состояния Чтобы избежать выделения памяти, обеим функциям...

Synesso / 10 июня 2018

0 голосов

1 ответ

pyspark: эффективно разделите запись по тому же количеству разделов, что и исходная таблица

У меня был вопрос, связанный с функцией repartitionBy() pyspark, который я первоначально разместил...

seth127 / 09 июня 2018

0 голосов

1 ответ

PySpark WARN сообщения

Как отключить следующие сообщения WARN при запуске кода PySpark: Setting default log level to...

kirylm / 09 июня 2018

0 голосов

1 ответ

Можно ли использовать Spark с форматом файла ORC без Hive?

Я работаю с HDP 2.6.4, а точнее Hive 1.2.1 с TEZ 0.7.0, Spark 2.2.0. Моя задача проста.Сохраните...

wyc / 08 июня 2018

0 голосов

1 ответ

Как правильно прочитать файл .csv в S3 из Spark?- Не удается прочитать нижний колонтитул для файла

Мы пытаемся прочитать файл .csv в S3, используя Spark, но получаем эту ошибку: py4j.protocol

Eugene Goldberg / 08 июня 2018

0 голосов

0 ответов

Разъем Spark Cassandra - использование IN для фильтрации динамических данных

Давайте предположим, что у меня есть RDD с элементами типа case class Foo(name: String, nums:...

jfu / 08 июня 2018

0 голосов

1 ответ

Добавление столбца в улей не допускается из кода scala / spark

Я пытаюсь добавить столбец в таблицу Hive, если в исходных данных появились новые столбцы.Все...

Jaime Drq / 08 июня 2018

0 голосов

1 ответ

Объект hbase не является членом пакета org.apache.spark.sql.execution.datasources

Я пытаюсь использовать Spark-Hbase-Connector для получения данных из HBase import org.apache.spark

Litchy / 08 июня 2018

0 голосов

1 ответ

Какой вариант выбрать для записи CSV-файла в Spark (HDFS)?

Мне нужно сравнить файлы CSV, а затем удалить все дублирующиеся строки.Итак, мое состояние таково,...

arcticOak2 / 08 июня 2018

0 голосов

1 ответ

Spark + cassandra - вставляется только одна запись

Я пытаюсь получить данные из улья и вставить их в Cassandra с помощью Spark. Очень удивительно, что...

Gurupraveen / 08 июня 2018