Вопросы с тегом апаша-искра

0 голосов

1 ответ

Невозможно запустить простую программу pyspark

Я пытаюсь создать СДР из одного файла, который находится в локальной системе. Я использую Eclipse...

RushHour / 12 октября 2019

0 голосов

0 ответов

Spark JDBC - подключение pyspark к Oracle

Я пытаюсь настроить соединение JDBC от Oracle Database к локальному pyspark на ноутбуке. В какую...

Jesse Nicholson / 12 октября 2019

0 голосов

2 ответов

Удалите данные в файлах HDFS и настройте Spark

У меня есть скрипт, который удаляет строки в текстовых файлах, хранящихся в HDFS . Данные разделены...

Lou_Ds / 12 октября 2019

0 голосов

1 ответ

Записать pyspark dataframe в файл, сохраняя вложенные кавычки, но не "внешние"?

Есть ли способ сохранить вложенные кавычки в значении фрейма данных pyspark при записи в файл (в...

lampShadesDrifter / 12 октября 2019

0 голосов

1 ответ

преобразовать столбец со значением json во фрейм данных с помощью scala spark

Я нашел несколько полезных ответов, но все они преобразовывали файл сына в df, в моем случае у меня...

semper doctrina / 11 октября 2019

0 голосов

0 ответов

Как читать из HDFS / HIVE, используя sparklyR в док-контейнере?

У меня есть док-контейнер, в котором я установил SparklyR, и мне нужен доступ к HDFS / HIVE из...

H.Z. / 11 октября 2019

1 голос

1 ответ

Неожиданное появление «Контейнер убит ЯРНО за превышение пределов памяти».

ErrorMessage': 'An error occurred while calling o103.pyWriteDynamicFrame. Job aborted due...

Raffael / 11 октября 2019

2 голосов

2 ответов

Pyspark: как отфильтровать 10000 случайных элементов из фрейма искры

Как я могу извлечь случайную выборку из 10000 элементов из моего искрового DataFrame? Мне нужно...

paolof89 / 11 октября 2019

0 голосов

2 ответов

Spark reduByKey () для возврата составного значения

Я новичок в Spark и наткнулся на следующую (возможно, простую) проблему. У меня есть СДР с...

user1551605 / 11 октября 2019

2 голосов

2 ответов

Как разделить номер писпарка или НЛП

Я хочу сделать несколько разбиений в одном столбце моего кадра данных. Пример: s = "Cras...

daddou06 / 10 октября 2019

0 голосов

0 ответов

Py4JJavaError: Произошла ошибка при вызове o37.load

Я довольно новичок в пространстве Pyspark, и я сталкиваюсь со следующей ошибкой, когда пытаюсь...

Statistical_Slot / 10 октября 2019

0 голосов

0 ответов

Операции DML над таблицей СУБД с использованием Spark SQL

Возможно ли выполнять операции DML, такие как обновление и удаление, в таблице RDBMS (oracle,...

chandra / 10 октября 2019

0 голосов

0 ответов

Spark не может прочитать csv-файлы Erasure в Hadoop 3

Я построил кластер из 3 узлов на Hadoop3 и хочу сравнить производительность политик кодирования...

António Mendes / 10 октября 2019

0 голосов

1 ответ

Исключение SSH в потоке "main" java.lang.NoClassDefFoundError: org / apache / hadoop / fs / FSDataInputStream

Я новичок в использовании серверов. На моем компьютере у меня нет проблем с использованием Apache...

Karencia Gárate / 10 октября 2019

1 голос

0 ответов

Сохраняйте медиа-файлы (изображения, аудио, видео) в HDFS и запрашивайте их с помощью Spark / Python

У меня есть медиа-файлы (изображения, аудио, видео) в качестве входных данных. Я хочу сохранить это...

arunDataEngineer / 10 октября 2019

0 голосов

1 ответ

Как заполнить последние ненулевые данные в столбце?

Мой входной DataFrame выглядит следующим образом: +-------+ |Column1| +-------+ |FILE_1 | |11 | |12...

Nikk / 10 октября 2019

0 голосов

0 ответов

Как это возможно, что результаты отображения меняются, даже если трансформация не выполняется?

У меня странная проблема в среде Databricks. Я пытаюсь выполнить некоторую отладку, но результаты...

juske / 10 октября 2019

1 голос

1 ответ

PySpark - столбец «Группировать по массиву»

Я очень новичок в pySpark. Благодарим Вас за помощь. У меня есть фрейм данных...

Oleg Zdanevich / 10 октября 2019

1 голос

1 ответ

Pyspark UDF - снижение производительности при сложном типе возврата

У меня есть PySpark UDF, который возвращает кортеж String, который я закодировал как структуру. Вот...

John / 10 октября 2019

1 голос

0 ответов

Какова эффективная стратегия разбиения для независимого от ключа отображения?

Прежде всего, я работаю с PySpark на Glue и читаю несколько очень больших CSV-файлов. Эти CSV-файлы...

Raffael / 09 октября 2019

0 голосов

1 ответ

Как объединить пустой столбец в фрейме данных pyspark

У меня есть приведенный ниже фрейм данных, и я хотел динамически обновить строки с некоторыми...

newbie / 09 октября 2019

0 голосов

0 ответов

Слияние схем не работает, когда пути s3 заданы явно

Когда пути s3 явно указаны для чтения паркетных файлов, которые не находятся в одном и том же...

harish1792 / 09 октября 2019

1 голос

1 ответ

Использование конфигурации hadoop у искрового работника

Я хочу прочитать некоторые данные из Рadoop напрямую из spark worker: Итак, в программе spark у...

Andrew / 09 октября 2019

0 голосов

1 ответ

Невозможно подключиться к автономному искровому кластеру через sparklyr. Как отлаживать?

Я могу подтвердить, что подключение к кластеру с помощью spark-shell например spark-shell --master...

xiaodai / 09 октября 2019

0 голосов

3 ответов

как определить отношения людей на основе имени, адреса и затем назначить один и тот же идентификатор через linux comman или Pyspark

У меня есть один CSV-файл. D,FNAME,MNAME,LNAME,GENDER,DOB,snapshot,Address 2,66M,J,Rock,F,1995...

Samson / 09 октября 2019