Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
0 ответов

def transform_data(data_dict, broadcast_map): detail = broadcast_map.value.get('key)...

Renjith / 04 января 2019
0 голосов
1 ответ

Не уверен, в чем проблема с этим. Я видел похожие проблемы, связанные с этой проблемой, но ничего,...

HMan06 / 04 января 2019
0 голосов
0 ответов

In gensim , Как я могу загрузить индексы моего слова на моей word2vec модели в pyspark, что...

Kam / 04 января 2019
0 голосов
0 ответов

Как можно импортировать / включать функциональность из заметки Zeppelin в другую? Представьте, что...

bazinac / 04 января 2019
0 голосов
0 ответов

Когда я использую структурированную потоковую передачу PySpark2.4 для анализа данных из Kafka, у...

link / 04 января 2019
0 голосов
0 ответов

Я хочу зашифровать несколько столбцов фрейма данных Spark на основании какого-либо условия

Ajay / 04 января 2019
0 голосов
0 ответов

У меня есть сценарий в PySpark, где я должен сделать некоторые вычисления на фрейме данных pandas...

Jeevan / 04 января 2019
0 голосов
1 ответ

У меня есть большой вложенный документ json для каждого года (например, 2018, 2017), в котором...

bizready / 04 января 2019
0 голосов
0 ответов

Исключение при чтении файла CSV в спарк. Я хочу прочитать файл TSV из hdfs, используя sqlcontext

Vamsi Nimmala / 03 января 2019
0 голосов
1 ответ

Я запускаю следующий код в spark submit (Spark 2.3.0) и получаю «NameError: имя 'sc' не определено"...

mezz / 03 января 2019
0 голосов
1 ответ

У меня есть следующий код: a = df.alias('a') b = dfDates.alias('b') cond = [a

user1761806 / 03 января 2019
0 голосов
0 ответов

Я пытаюсь вызвать распараллеливание со списком размером приблизительно 100, когда размер всего...

tamirg / 03 января 2019
0 голосов
1 ответ

Я пытаюсь извлечь слова из столбца строк с помощью регулярного выражения pyspark. Мой фрейм данных...

Mayan / 03 января 2019
0 голосов
4 ответов

Я использую записную книжку Databricks в Azure, и у меня была отличная записная книжка Pyspark,...

user1761806 / 03 января 2019
0 голосов
5 ответов

Я пытаюсь сгруппировать и суммировать для кадра данных PySpark (2.4), но не могу получить значения...

LaSul / 03 января 2019
0 голосов
3 ответов

У меня есть приведенный ниже фрейм данных, и я пытаюсь получить значение 3097 в виде целого числа,...

LaSul / 03 января 2019
0 голосов
1 ответ

Я не могу настроить память исполнителя и драйвера. from pyspark import SparkContext, SparkConf from...

ChuckF / 03 января 2019
0 голосов
0 ответов

Я пытаюсь выполнить куст SQL от спарк. Следующее прекрасно работает с использованием spark-sql или...

user3138594 / 02 января 2019
0 голосов
1 ответ

Вкратце: Я запускаю приложение pySpark на EMR AWS.Когда я сопоставляю rdd с помощью...

et_l / 02 января 2019
0 голосов
1 ответ

Я понизил с JDK 1.8 до 1.7, так как пытаюсь решить другую проблему, для которой одним из...

user1761806 / 02 января 2019
0 голосов
1 ответ

в Spark, в чем разница между union и or-clause? Давайте рассмотрим пример: Вот мой фрейм данных: df...

Steven / 02 января 2019
0 голосов
0 ответов

У меня есть следующий код: a) Создать экземпляр Local Spark: # Load data from local machine into...

user1761806 / 02 января 2019
0 голосов
2 ответов

У меня есть следующий код: # Get the min and max dates minDate, maxDate = df2.select(f

user1761806 / 02 января 2019
0 голосов
1 ответ

Я использую PySpark и добавил пару банок к $SPARK_HOME/jars, но получаю ошибку py4j.protocol

Clock Slave / 02 января 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...