Вопросы с тегом апаш-искра

2 голосов

1 ответ

В Spark 2.4 Разве Spark JDBC не позволяет указывать встроенную функцию как partitionColumn?

Я пытаюсь изменить версию spark 2.2.1 на 2.4.0 В спарке 2.2, после работало нормально. val query =...

Hacking J / 31 марта 2019

0 голосов

0 ответов

Неверная таблица для всех пользователей после загрузки данных в таблицу

Мы запускаем кластер Spark в режиме высокого параллелизма.ETL происходит каждый день (с...

Sam / 31 марта 2019

0 голосов

0 ответов

Как обработать ввод DStream, разделив его на RDD для печати сообщений Kafka?

Я создаю Spark Streaming Application и хочу обрабатывать каждое сообщение Кафки отдельно. Сейчас я...

Alex Strong / 31 марта 2019

2 голосов

1 ответ

Сглаживание типов структур в Scala

Я пытаюсь создать список из структурного типа во фрейме Spark Data. Схема выглядит примерно так...

Prateek / 31 марта 2019

1 голос

1 ответ

Как запросить сохраненный кадр данных в искровом задании (A) из другого искрового задания (B)

В разных контейнерах выполняются две задачи потокового воспроизведения - назовем их работой учителя...

EbbnFlow / 30 марта 2019

0 голосов

0 ответов

Как объяснить длительную задержку, прежде чем другой исполнитель выберет задачи?

Как вы можете объяснить следующий результат выполнения предгеля spark graphx? В искровом кластере...

kboom / 30 марта 2019

0 голосов

1 ответ

Как я могу получить все имена массивов на Dataframe

Как я могу получить все имена массивов в Dataframe? Проблема в том, что я пытаюсь взорвать ВСЕ...

J-kram / 30 марта 2019

0 голосов

0 ответов

Как правильно разобрать лог-файлы apache в spark scala?

Я пытаюсь прочитать файл журнала apache и пытаюсь поместить его в dataframe после синтаксического...

maddy / 30 марта 2019

0 голосов

0 ответов

Тот же идентификатор раздела, но расположение раздела изменилось между искрой?

Я отлаживаю искровое приложение: val rdd1 = sparkContext.makeRDD(keyValueDataList1).partitionBy(new...

maxl1971 / 30 марта 2019

0 голосов

2 ответов

Запустит загрузку данных в память, если объем данных составляет 10 ГБ, а объем оперативной памяти - 1 ГБ.

Если у меня есть кластер из 5 узлов , каждый узел имеет 1 ГБ оперативной памяти , теперь, если мой...

intellect_dp / 30 марта 2019

0 голосов

1 ответ

Как получить минимальное значение для каждого отдельного ключа, используя ReduceByKey () в Scala

У меня есть плоская карта, которая возвращает последовательность Seq((20,6),(22,6),(23,6),(24,6)...

varun / 29 марта 2019

0 голосов

0 ответов

Соедините Spark и Power BI, используя чистый код Java

Я пытаюсь подключить MS Power BI к локальному сеансу Spark (все это происходит на компьютере с...

user5664778 / 29 марта 2019

2 голосов

3 ответов

Ранг на строку по нескольким столбцам в кадре данных Spark

Я использую spark с Scala для преобразования Dataframe, где я хотел бы вычислить новую переменную,...

Amit / 29 марта 2019

0 голосов

0 ответов

Scala: записать каждый извлеченный файл данных в другой

Поскольку я хочу извлечь данные из .doc файлов с помощью apache Tika, я запускаю следующий код:...

Iriel / 29 марта 2019

0 голосов

0 ответов

Ошибка java.lang.StackOverflowError при выполнении анализа настроений на Spark (из-за функции карты)

Мы обучаемся выполнять анализ настроений на данных в Твиттере с помощью Hadoop, и мы получаем...

S.P / 29 марта 2019

0 голосов

0 ответов

AWS Redshift Parquet COPY имеет несовместимую схему паркета

Я пишу DataFrame в Redshift, используя временную корзину s3 и Parquet в качестве временного формата

alexanoid / 29 марта 2019

0 голосов

1 ответ

Проблема при применении логистической регрессии к данным CSV

Я новичок в машинном обучении и пытаюсь изучить его, используя scala и spark в локальном режиме,...

harshal pandit / 29 марта 2019

0 голосов

0 ответов

Как избежать »- зарезервированное ключевое слово, которое нельзя использовать в качестве имени поля« ошибка в Spark SQL и структурированной потоковой передаче ».

В настоящее время, когда я использовал Structured Streaming v2.1.0 + Kafka v0.10 для обработки...

Jason L / 29 марта 2019

1 голос

0 ответов

Есть ли способ перераспределить постоянную репликацию набора данных?

У меня есть постоянный набор данных MEMORY_AND_DISK_2, я использую фактор репликации, чтобы...

minsky / 29 марта 2019

0 голосов

1 ответ

Как исправить Не удалось открыть собственное соединение с Cassandra по адресу {server ip}: 9042

Я пытаюсь соединить искру и Кассандру, используя спарк-кассандра-разъем. соединение устанавливается...

Shreya Mahajan / 29 марта 2019

0 голосов

0 ответов

Перераспределение большого количества файлов json в s3 в паркет с EMR занимает очень много времени

В настоящее время пытаются записать большое количество (7,5 миллионов) файлов json из s3 в...

Zillah / 29 марта 2019

0 голосов

1 ответ

Поддерживает ли Spark SQL 2.1 запись временной таблицы или таблицы кустов в Mysql / Oracle?

Я использую Spark SQL 2.1, Я могу читать данные из mysql / oracle как временное представление в...

Tom / 29 марта 2019

0 голосов

0 ответов

Как исправить ошибку: «java.net.URISyntaxE xception: относительный путь в абсолютном URI» при создании таблицы кустов

Я собираюсь создать внешнюю таблицу в Hive, используя код ниже: CREATE EXTERNAL TABLE...

JUNYAN XU / 29 марта 2019

0 голосов

1 ответ

Как использовать Spark RDD для отправки партии?

У меня есть СДР из множества предметов, просто упростить это нравится: [0,1,2,3,4,5,6,7,8,9] и...

jmuok / 29 марта 2019

0 голосов

2 ответов

Выполнение запросов SparkSQL медленнее, чем моя база данных

Приветствие Я создал кластер Spark 2.1.1 в Amazon EC2 с экземпляром типа m4.large, состоящим из 1...

catalino / 29 марта 2019