Вопросы с тегом апаша-искра

2 голосов

1 ответ

Раскрутка кластера Dataproc с помощью Spark BigQuery Connector

Чтение инструкций по этому репо: Соединители Google Cloud Storage и BigQuery Я выполнил приведенное...

Christos Hadjinikolis / 02 октября 2019

0 голосов

1 ответ

Искра Ошибка при распаковке предметов из кортежа в RDD

Я написал скрипт на ноутбуке Jupyter для чтения СДР и выполнения операций. Скрипт отлично работает...

algorythms / 02 октября 2019

0 голосов

1 ответ

Как работает Livy rest API call?

Я начинаю работать с Apache Livy, и я смог проследить онлайн-документацию и был в состоянии...

Explorer / 02 октября 2019

0 голосов

0 ответов

Spark Connect для LDAP / OpenLDAP / Active Directory

возможно ли считывать данные из LDAP Как и Active Directory из Spark, мне нужно получить эти данные...

Sandeep540 / 02 октября 2019

1 голос

1 ответ

Использование pyspark для записи в cassandra с отметкой времени

Я хотел бы иметь возможность использовать USING TIMESTAMP Кассандры, например: INSERT INTO ......

Felipe Caputo / 01 октября 2019

0 голосов

1 ответ

Как преобразовать вызов Livy curl в вызов Livy Rest API

Я начинаю работать с Livy, в моей настройке сервер Livy работает на Unix-машине, и я могу выполнить...

Explorer / 01 октября 2019

0 голосов

0 ответов

Можно ли читать данные из Кассандры и записывать в memcached с помощью sqoop

Мне нужно прочитать данные из базы данных nosql cassandra и записать в memcached в системном...

Jagadeesh N M / 01 октября 2019

0 голосов

0 ответов

Вызов openssl :: rand_num (1) в sparklyr возвращает «недопустимую операцию»

Для запуска кода R мы подключаемся к кластеру искр с помощью библиотеки sparklyr. Только в...

Stephen A / 01 октября 2019

0 голосов

0 ответов

Ошибка: отсутствует ресурс приложения, на котором выполняется spark-submit --py-files mypackage.egg

Я получаю стандартную ошибку: Ошибка: отсутствует ресурс приложения. Я просто хочу запустить...

Eric Bellet / 01 октября 2019

0 голосов

0 ответов

Прохождение sparkSession между Scala Spark и PySpark

Мое требование - вызвать функцию «Spark Scala» из существующей программы PySpark. Каков наилучший...

user12148436 / 01 октября 2019

4 голосов

2 ответов

Spark работа с использованием хранилища HDFS

У меня есть долгосрочное задание на структурированную потоковую передачу Spark, запущенное в Google...

iamyojimbo / 01 октября 2019

0 голосов

0 ответов

Задача Apache Spark дает исключение нулевого указателя

В задании apache spark rdd моя задача не завершается и выдается исключение нулевого указателя. Lost...

tarun / 01 октября 2019

1 голос

1 ответ

Преобразование лямбда-функций в регулярные функции

Мне нужно преобразовать следующий код, включающий несколько лямбда-функций, в отдельные «обычные»...

algorythms / 01 октября 2019

0 голосов

1 ответ

Как я могу написать в один CSV-файл быстро?

Я пытаюсь перераспределить (1) фрейм данных при записи в csv, но он работает более 2 часов. Я...

Yonas Haile / 01 октября 2019

2 голосов

1 ответ

Как подключить PySpark к Bigquery

Я пытаюсь прочитать форму таблицы BigQuery с помощью PySpark. Я попробовал следующее table =...

Alex / 01 октября 2019

1 голос

1 ответ

Работа с неоднородными столбцами JSON в искровом фрейме

Я хотел бы знать, как лучше всего читать файл JSON с разделителями новой строки в кадре данных....

Whitney Zoller / 30 сентября 2019

0 голосов

2 ответов

Как переименовать мой JSON, сгенерированный pyspark?

Когда я пишу свой файл JSON с помощью dataframe.coalesce(1).write.format('json') на...

Mateus / 30 сентября 2019

0 голосов

0 ответов

Все связанные вершины должны быть в одной строке в Dataframe, используя Graphframe

Это способ в библиотеке graphFrames сделать что-то вроде следующего: Edge: - +---+---+------------+...

A B / 30 сентября 2019

0 голосов

1 ответ

Как преобразовать столбец данных pyspark в массив numpy

Я пытаюсь преобразовать столбец данных pyspark, содержащий приблизительно 90 миллионов строк, в...

Vaibhav Rathi / 30 сентября 2019

0 голосов

1 ответ

объект pyspark pandas как фрейм данных - TypeError

Редактировать : РАЗРЕШЕНО Я думаю, что проблема заключается в многомерных массивах, сгенерированных...

androboy / 30 сентября 2019

0 голосов

2 ответов

Как я могу взять фрейм данных, содержащий списки строк, и создать еще один фрейм данных из этих списков в Pyspark?

Предположим, у меня есть фрейм данных, который выглядит следующим образом +--------------------+ |...

Josh / 30 сентября 2019

0 голосов

0 ответов

Как загрузить данные в инстансах weka из искрового фрейма данных

У меня есть искра DataFrame. Теперь я хочу сделать некоторую обработку, используя Weka. Поэтому я...

junaedcse / 30 сентября 2019

1 голос

0 ответов

Насколько быстрый пакет R sparklyr в качестве внешнего интерфейса для Spark?

Я читал в Интернете, что Scala быстрее, чем Python, например, здесь . Я также видел сравнение между...

jay / 30 сентября 2019

0 голосов

1 ответ

Что люди подразумевают под «промежуточными результатами», когда говорят о Hadoop, Spark и Big Data?

Я пытаюсь узнать немного больше о больших данных, особенно в отношении использования Hadoop и Spark

loolkzey / 29 сентября 2019

0 голосов

1 ответ

Использование оператора like для фильтрации имен столбцов в Scala

У меня есть фрейм данных, из которого я хочу создать список всех этих столбцов, который начинается...

INAM / 29 сентября 2019