Вопросы с тегом апаша-искра - PullRequest

Вопросы с тегом апаша-искра

0 голосов
1 ответ

Я пытаюсь создать схему для проверки GeoJSON загружаемых файлов: validSchema = StructType([...

simon_dmorias / 12 июня 2018
0 голосов
0 ответов

У меня проблема при преобразовании DataFrame в RDD.Кадр данных изначально создается из файла CSV:...

ed2412 / 12 июня 2018
0 голосов
0 ответов

Я пытаюсь объединить множество маленьких файлов, сгенерированных в один больший.Мои файлы в...

Hemakshi Sachdev / 12 июня 2018
0 голосов
1 ответ

Я ищу работу Google DataProc с GCS.Я использую pyspark dataproc.Данные считываются и записываются в...

MANISH ZOPE / 12 июня 2018
0 голосов
1 ответ

Можно ли как-то сказать главному узлу не назначать больше задач определенному рабочему узлу в...

sam93 / 12 июня 2018
0 голосов
1 ответ

У меня большой набор данных из 5 миллионов элементов, состоящий из их идентификатора, стоимости и т

Aman / 11 июня 2018
0 голосов
1 ответ

Я управляю проектом с кафкой и Apache spark.Чтобы запустить мой поток kafka, я запускаю эту команду...

Nespony / 11 июня 2018
0 голосов
1 ответ

Я готовлюсь к использованию встроенной функции CSV-печати в искровом фрейме данных (не в pandas).У...

Geoffrey Anderson / 11 июня 2018
0 голосов
1 ответ

У меня есть Spark DataFrame схемы: |-- ROW_ID: string (nullable = true) |-- SUBJECT_ID: string...

mongolol / 11 июня 2018
0 голосов
1 ответ

У меня есть около 15 миллионов строк в DataFrame, которые мне нужно проанализировать.То, что я...

HMan06 / 11 июня 2018
0 голосов
0 ответов

Я просто проследил за получением стартовой страницы Spark и попытался запустить simpleApp. My Spark...

Sam / 11 июня 2018
0 голосов
1 ответ

Давайте предположим, что у меня есть RDD[Foo], где case class Foo(bar: String, baz: Int), и у меня...

jfu / 11 июня 2018
0 голосов
1 ответ

Я пытался использовать функцию conv, как я видел в некоторых примерах, но у меня не работает.Я не...

estelab / 10 июня 2018
0 голосов
0 ответов

В Microsoft Azure мы можем создать кластер Spark в Azure HDInsight и создать кластер Hbase в Azure...

user2575502 / 10 июня 2018
0 голосов
1 ответ

У меня есть кадр данных, как показано ниже в pyspark. +-----+---+---+----+ |tests|val|asd|cnty|...

Question_bank / 10 июня 2018
0 голосов
0 ответов

PairRDDFunctions.aggregateByKey скалярные состояния Чтобы избежать выделения памяти, обеим функциям...

Synesso / 10 июня 2018
0 голосов
1 ответ

У меня был вопрос, связанный с функцией repartitionBy() pyspark, который я первоначально разместил...

seth127 / 09 июня 2018
0 голосов
1 ответ

Как отключить следующие сообщения WARN при запуске кода PySpark: Setting default log level to...

kirylm / 09 июня 2018
0 голосов
1 ответ

Я работаю с HDP 2.6.4, а точнее Hive 1.2.1 с TEZ 0.7.0, Spark 2.2.0. Моя задача проста.Сохраните...

wyc / 08 июня 2018
0 голосов
1 ответ

Мы пытаемся прочитать файл .csv в S3, используя Spark, но получаем эту ошибку: py4j.protocol

Eugene Goldberg / 08 июня 2018
0 голосов
0 ответов

Давайте предположим, что у меня есть RDD с элементами типа case class Foo(name: String, nums:...

jfu / 08 июня 2018
0 голосов
1 ответ

Я пытаюсь добавить столбец в таблицу Hive, если в исходных данных появились новые столбцы.Все...

Jaime Drq / 08 июня 2018
0 голосов
1 ответ

Я пытаюсь использовать Spark-Hbase-Connector для получения данных из HBase import org.apache.spark

Litchy / 08 июня 2018
0 голосов
1 ответ

Мне нужно сравнить файлы CSV, а затем удалить все дублирующиеся строки.Итак, мое состояние таково,...

arcticOak2 / 08 июня 2018
0 голосов
1 ответ

Я пытаюсь получить данные из улья и вставить их в Cassandra с помощью Spark. Очень удивительно, что...

Gurupraveen / 08 июня 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...