Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
1 ответ

hive_context.sql("use caz_applied_ana") Вот код, который я использую в ноутбуке Jupyter

Tom Serdioukov / 25 июня 2018
0 голосов
0 ответов

Я заметил, что мои коды pyspark вызывают ошибку памяти. Используя VirtualVM, я заметил моменты,...

Yong Hyun Kwon / 25 июня 2018
0 голосов
1 ответ

У меня есть необработанный pyspark Dataframe со столбцом инкапсуляции.Мне нужно зациклить все...

Guinaume / 25 июня 2018
0 голосов
1 ответ

Я относительно новичок в Spark, но я вижу, как оба метода запускают сеанс искры. Может кто-нибудь...

Miguel A. Friginal / 25 июня 2018
0 голосов
1 ответ

Мне нужно преобразовать следующее выражение scala в python: scala> a.join(b, a("key")...

Gerrie van Wyk / 25 июня 2018
0 голосов
1 ответ

Я пытаюсь решить проблему с пакетами Python PySpark.Я разработал пакет python, который имеет...

Ram / 25 июня 2018
0 голосов
2 ответов

Как мы можем реализовать приведенную ниже логику в искре? Если значение столбца равно нулю, оно...

Ram / 24 июня 2018
0 голосов
1 ответ

У меня есть json, который выглядит следующим образом: { "cols": [ "id",...

Matt / 24 июня 2018
0 голосов
1 ответ

Я передаю функцию в Spark. Эта функция решает проблему оптимизации, которая занимает около половины...

Mohamed Ibrahim / 24 июня 2018
0 голосов
0 ответов

У меня есть HadonWorks кластер HadonWorks с следующим: 8 ядер и 16 ГБ ОЗУ (Наменод, Мастер...

rachid si oumghar / 23 июня 2018
0 голосов
1 ответ

Во-первых, у меня есть две переменные в начале кода. numericColumnNames = []...

yunus kula / 23 июня 2018
0 голосов
2 ответов

Я пытаюсь написать функцию flatMap на языке python в понимании списка! simpleRDD = sc

Morti / 23 июня 2018
0 голосов
0 ответов

У меня проблема с большим объектом (400мл соленых), который мне нужно использовать в UDF. Объект...

mvryan / 23 июня 2018
0 голосов
1 ответ

У меня есть датафрейм в PySpark со строковым столбцом со значением...

Steven / 13 июня 2018
0 голосов
1 ответ

У меня есть большое количество столбцов в кадре данных PySpark, скажем, 200. Я хочу выбрать все...

Tshilidzi Mudau / 13 июня 2018
0 голосов
1 ответ

У меня есть следующий ряд в pyspark.Я хочу объединить его с фреймом данных pandas....

Gagan / 13 июня 2018
0 голосов
1 ответ

Я только начал свою поездку в Pyspark, создав модель логистической регрессии, которая предсказывает...

belmont_richter / 13 июня 2018
0 голосов
0 ответов

нужно быстрое предложение. У меня есть сжатый файл в формате S3 (размер 3 ГБ), и я пытаюсь...

Suresh Chaganti / 12 июня 2018
0 голосов
1 ответ

У меня есть файл CSV, который хранится в формате hdf в следующем формате: Business Line,Requisition...

G.Marwah / 12 июня 2018
0 голосов
0 ответов

Подобно сжатию журналов Kafka, существует довольно много случаев, когда требуется сохранять только...

Thilo / 12 июня 2018
0 голосов
1 ответ

У меня расплавленный фрейм данных, который выглядит следующим образом: # +---+--------+----------+...

Tibberzz / 12 июня 2018
0 голосов
1 ответ

У нас есть две доступные версии Spark (1.6 и 2.1).Я установил переменные окружения (например,...

Tim / 12 июня 2018
0 голосов
1 ответ

Я использовал df.printSchema() в pyspark, и это дает мне схему с древовидной структурой.Теперь мне...

Ahito / 12 июня 2018
0 голосов
1 ответ

Я пытаюсь создать схему для проверки GeoJSON загружаемых файлов: validSchema = StructType([...

simon_dmorias / 12 июня 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...