Вопросы с тегом pyspark

0 голосов

1 ответ

Зачем нам нужно больше исполнителей, чем количество машин в Spark?

Какова логика запроса большего количества исполнителей, чем машин, доступных в вашем кластере? В...

J. Doe / 05 октября 2018

0 голосов

1 ответ

pyspark kafka потоковое смещение

Ниже приведена ссылка, относящаяся к потоковой передаче смещения темы kafka в pyspark. from pyspark

Bond / 05 октября 2018

0 голосов

2 ответов

Python для использования карты, как скала

У меня есть программа scala, которая имеет фрейм данных и преобразует его в список с этим...

White Shadows / 05 октября 2018

0 голосов

1 ответ

Как преобразовать текстовый файл с разделителями трубы в CSV-файл в Pyspark?

Я читаю текстовый файл с разделителями трубы из hdfs.Я хочу сохранить этот файл как фрейм данных...

andy / 05 октября 2018

0 голосов

0 ответов

Как посмотреть, какие классы существуют в JavaPackage

Для контекста - я обновляю с версии 2.1.1 до 2.3.1, у меня есть собственный контекст spark,...

Andy / 05 октября 2018

0 голосов

1 ответ

Как получить доступ к DataFrame, созданному с помощью PySpark, используя SparkR?

Я создал PySpark DataFrame для Databricks. %python # File location and type file_location =...

user1444216 / 05 октября 2018

0 голосов

1 ответ

сохранение содержимого df.show () в виде строки в pyspark

from pyspark.sql import SparkSession sc = SparkSession.builder.getOrCreate() prsn = sc.read

Amit Kumar Suar / 05 октября 2018

0 голосов

1 ответ

График производительности PageRank: PySpark vs sparklyr

Я использую Spark / GraphFrames из Python и R. Когда я вызываю PageRank на небольшом графике из...

joel314 / 05 октября 2018

0 голосов

1 ответ

Pyspark Конвертер валют

У меня есть фрейм данных df, например: df.show() Вывод: +-----+--------+----------+...

Alla Tarighati / 05 октября 2018

0 голосов

1 ответ

Найти лучшие K косинус подобные векторы для данного вектора эффективно

Проблема: Предположим, у меня есть группа из около 1 000 000 коротких документов D (не более 50...

barak david / 05 октября 2018

0 голосов

2 ответов

Не удается прочитать из Elasticsearch с помощью PySpark

возможно, есть кто-то, кто может мне помочь.Я пытаюсь прочитать данные из ES с помощью PySpark.Мой...

Diego Perez / 05 октября 2018

0 голосов

0 ответов

PySpark, Tensorflow и Tensorframes - ClassNotFoundException

Я пытался запустить минималистичный код из примера репозитория : import tensorflow as tf import...

atos / 04 октября 2018

0 голосов

0 ответов

Вызовите getNextException из pyspark

Я пытаюсь записать данные в db2 через pyspark и хочу получать более качественные сообщения об...

user3124181 / 04 октября 2018

0 голосов

1 ответ

Недостаточно памяти для среды выполнения Java для продолжения spark-submit

Я выполняю задание pyspark spark-submit --driver-memory 2g --executor-memory 2g --conf spark.driver

Raghav salotra / 04 октября 2018

0 голосов

0 ответов

pyspark randomSplit Изменяет значения фрейма данных

У меня в PySpark значительный фрейм данных (100 ГБ), который я хочу разделить на набор для обучения...

Sofu5 / 04 октября 2018

0 голосов

1 ответ

Spark: как сделать значение нового столбца на основе разных столбцов

Spark 2.2.1 Pyspark df = sqlContext.createDataFrame([ ("dog", "1",...

Micah Pearce / 04 октября 2018

0 голосов

2 ответов

Использование pyspark в Windows не работает - py4j

Я установил Zeppelin в Windows, используя это руководство и это .Я также установил Java 8, чтобы...

Shir / 04 октября 2018

0 голосов

0 ответов

Рабочие узлы малой памяти и производительность

Я пытаюсь установить искровой кластер поверх роя докеров, работающих на очищенном оборудовании.У...

Egil Möller / 04 октября 2018

0 голосов

3 ответов

Spark: вернуть пустой столбец, если столбец не существует в кадре данных

Как показано в приведенном ниже коде, я считываю файл JSON в фрейм данных и затем выбираю некоторые...

AntonyP / 04 октября 2018

0 голосов

1 ответ

Как пропустить несколько строк, используя read.csv в PySpark

У меня .csv с несколькими столбцами, и я хочу пропустить 4 (или 'n' в целом) строки при...

cph_sto / 04 октября 2018

0 голосов

1 ответ

Как проверить данные конкретного раздела из разделов Spark в Pyspark

Я создал два фрейма данных в pyspark из моей таблицы улья: data1 = spark.sql("""...

vikrant rana / 04 октября 2018

0 голосов

0 ответов

Создание полной структуры из нескольких файлов JSON

У меня есть шесть типов файлов JSON (каждый для различных статусов бронирования), которые...

AntonyP / 04 октября 2018

0 голосов

0 ответов

Разбиение большого двоичного файла с использованием pyspark

Попытка обработать большой двоичный файл, используя PySpark, но всегда получая OutofMemoryError

ravee / 04 октября 2018

0 голосов

0 ответов

Обновите значения в глобальном словаре из UDF PySpark

У меня есть пользовательская функция (UDF), которая добавляет новый столбец к кадру данных искры,...

Chris / 04 октября 2018

0 голосов

0 ответов

Ошибка сокета, преобразующая искру в кадр данных панд

Я пытаюсь преобразовать небольшой массив данных Spark (myDF1) в Pandas, используя .toPandas(), и...

thecoder / 04 октября 2018