Вопросы с тегом апаш-искра

0 голосов

1 ответ

Escape Comma внутри CSV-файла с использованием спарк-оболочки

У меня есть набор данных, содержащий две строки ниже s.no,name,Country 101,xyz,India,IN 102,abc...

Johny_Bravo / 27 февраля 2019

0 голосов

0 ответов

Ошибка подбора искрового трубопровода, невозможно найти путь

У меня спарк 2.4.0 и скала 2.11.12 в Win10.С помощью spark-shell я загрузил CSV-файл import java.io

davidzxc574 / 27 февраля 2019

0 голосов

1 ответ

У меня есть таблица принять таблицу в качестве необходимого кадра данных ответ в искровых Scala

sparkscala / 27 февраля 2019

0 голосов

0 ответов

потоковая искра 2.3.0 |Читайте Авро Кафка Рубрика |Обязательный атрибут 'value' не найден;

Я пытаюсь прочитать тему Avro, схему, описанную рядом с реестром схемы. Невозможно десериализовать...

suman gorantla / 27 февраля 2019

0 голосов

0 ответов

Как мы можем запустить несколько шагов одновременно в кластере AWS EMR (в основном работает спарк)?

мы отправляем рабочие задания spark, используя step api из aws sdk.Но в то время, когда только одно...

Gauraw Singh / 27 февраля 2019

0 голосов

1 ответ

Эффективное управление памятью в Spark?

Существует ли определенный стандарт для эффективного управления памятью в Spark Что если я в итоге...

Dixon / 27 февраля 2019

0 голосов

0 ответов

Очень медленное соединение между Power Bi и Spark Thrift Server с использованием Spark Connector

Я использую разъем «spark» в настольном приложении Power Bi для подключения к серверу Spark Thrift,...

DigitalFox / 27 февраля 2019

0 голосов

1 ответ

Как проверить, если RDD пуст с помощью потоковой передачи искры?

У меня следующий код pyspark, который я использую для чтения файлов журнала из журнала / каталога,...

user1457821 / 27 февраля 2019

0 голосов

0 ответов

обработка пустых партий из входящего потока кинезиса в искровой структурированный поток

мы читаем данные из кинезиса и выводим их в файл, используя поток структуры искры.Реализация...

Vish / 27 февраля 2019

0 голосов

1 ответ

Простой способ центрировать столбец в DataFrame Spark

Я хочу центрировать столбец в кадре данных Spark, т. Е. Вычесть каждый элемент в столбце из...

Benjamin Du / 27 февраля 2019

0 голосов

0 ответов

написать спарк DF в HDFS

У меня есть DF с ~ 500K записями: org.apache.spark.sql.DataFrame Я пытаюсь записать DF в папку...

vikky / 27 февраля 2019

0 голосов

1 ответ

Хранение данных с датчиков в hdfs

Я работаю над проектом, который предполагает использование HDFS для хранения и Spark для вычислений

imad777 / 27 февраля 2019

0 голосов

0 ответов

Работа прервана из-за сбоя этапа в Spark

Когда я отправляю свое искровое задание, оно завершается с ошибкой, указанной ниже, и я пытаюсь...

Bab / 27 февраля 2019

0 голосов

1 ответ

Проверьте все элементы массива, присутствующие в другом массиве pyspark

У меня есть фрейм данных искры df1 id transactions 1 [1, 2, 3, 5] 2 [1, 2, 3, 6] 3 [1, 2, 9, 8] 4...

priya / 27 февраля 2019

0 голосов

1 ответ

Ошибка десериализации Apache Spark Throwing при использовании метода take на RDD

Я новичок в Spark, и я использую Scala 2.12.8 с Spark 2.4.0.Я пытаюсь использовать классификатор...

The_Mad_Geometer / 26 февраля 2019

0 голосов

1 ответ

Spark ML: Как DecisionTreeClassificatonModel узнает о весах деревьев?

Я бы хотел получить вес для узлов дерева из сохраненного (или несохраненного)...

Jeff Saremi / 26 февраля 2019

0 голосов

1 ответ

Проблема вставки данных в таблицу кустов с использованием искры

В настоящее время я работаю над Spark версии 2.1.0, в рамках моей работы по сбору данных я должен...

Ajay Kharade / 26 февраля 2019

0 голосов

1 ответ

Контрольная точка для многих потоковых источников

я работаю с zeppelin, я читаю много файлов из многих источников в потоковой передаче с плагинами:с...

b2ooba / 26 февраля 2019

0 голосов

1 ответ

Неэффективно ли использовать UDF для вычисления расстояния между двумя векторами?

Я реализовал алгоритм классификации в Spark, который включает в себя расчет расстояний между...

oulenz / 26 февраля 2019

0 голосов

0 ответов

Почему мы видим ошибки записи паркета после перехода на согласованное представление EMRFS?

у нас есть большой процесс ETL, запущенный в кластере EMR, который читает и записывает большое...

James Swarowski / 26 февраля 2019

0 голосов

1 ответ

Как распределить учебные задания равномерно между исполнителями?

Я установил автономный кластер с 4 рабочими (у каждого по 4 ядра) и 1 мастером.У каждого есть окно...

GTR TOGTOKH / 26 февраля 2019

0 голосов

1 ответ

Почему eclipse считает df.as [CaseClass] ошибкой в программе Scala Spark?

Я пытаюсь преобразовать фрейм данных в набор данных, используя синтаксис case class Schema(...) val...

Ajax1986 / 26 февраля 2019

0 голосов

0 ответов

Несоответствие счета для просмотра в beeline и spark2-shell: просмотр внутри с использованием соединений на паркетных столах

sqlContext.sql("select count(*) from db_bame.vw_name") количество отсчетов x и beeline>...

Ab gupta / 26 февраля 2019

0 голосов

1 ответ

Обновление коннектора Hortonworks Hive Warehouse и схемы

Похоже, что Hortonworks Hive Warehouse Connector до v.1.0.0 не поддерживает обновления схемы.Я...

Eugene Lopatkin / 26 февраля 2019

0 голосов

1 ответ

Spark читает несколько файлов: двойные кавычки заменены на% 22

У меня есть требования для чтения случайных файлов JSON в разных папках, где данные изменились

Rohan Nayak / 26 февраля 2019