Вопросы с тегом рдд - PullRequest

Вопросы с тегом рдд

0 голосов
0 ответов

Я использую pyspark, чтобы найти предложения для общих друзей между пользователями.Исходный входной...

CooperHudnall / 29 сентября 2018
0 голосов
0 ответов

Я получаю неравномерный размер тем Кафки.Мы хотим перераспределить входной RDD на основе некоторой...

Alchemist / 28 сентября 2018
0 голосов
3 ответов

Мой текстовый файл содержит следующие данные: 10,14,16,19,52 08,09,12,20,45 55,56,70,78,53 Я хочу...

abdul rahim / 27 сентября 2018
0 голосов
2 ответов

Мое приложение Apache Spark обрабатывает гигантские RDD и генерирует EventLogs через History Server

Bruno / 26 сентября 2018
0 голосов
3 ответов

У меня ниже образец данных: 67832,CLARE,MANAGER,68319,1991-06-09,2550.00,,1001 65646,JONAS,MANAGER...

RushHour / 26 сентября 2018
0 голосов
1 ответ

Я хочу использовать pySpark для реструктуризации своих данных, чтобы я мог использовать их для...

Vidster / 26 сентября 2018
0 голосов
0 ответов

Я новичок в скале и искре.Я получаю ошибку компиляции на intellij для следующего оператора, который...

student4ever / 26 сентября 2018
0 голосов
1 ответ

Я заметил, что RDD.pipe (Seq ("/ tmp / test.sh")) запускает скрипт оболочки с пользовательской...

JavaPlanet / 26 сентября 2018
0 голосов
0 ответов

Я пытаюсь получить данные из HBase, используя Spark. JavaPairRDD<ImmutableBytesWritable,...

Pushpitha Dilhan / 25 сентября 2018
0 голосов
0 ответов

Есть ли какой-нибудь выход для доступа к java-объектам на рабочих узлах через pyspark? Ниже...

java_dev / 25 сентября 2018
0 голосов
0 ответов

Я новичок в мире программирования и искры RDD.Я должен проанализировать несколько файлов журнала...

student4ever / 25 сентября 2018
0 голосов
1 ответ

У меня есть датафрейм, который выглядит следующим образом: df: col1 col2 a [p1,p2,p3] b [p1,p4]...

user1337 / 24 сентября 2018
0 голосов
2 ответов

Я знаю, что метод Apache Spark persist сохраняет RDD в памяти и что, если не хватает места в памяти...

YACINE GACI / 20 сентября 2018
0 голосов
1 ответ

У меня есть Pair Rdd[(Int, Array[Double])], и я хочу, чтобы каждый ключ вычитал все другие массивы...

Tmpoul / 20 сентября 2018
0 голосов
1 ответ

У меня есть такой фрейм данных: +---+-------+--------------+ | id|clicked| features |...

Ippon / 19 сентября 2018
0 голосов
1 ответ

У меня есть такой файл ввода: The Works of Shakespeare, by William Shakespeare Language: English ,...

Isaac / 19 сентября 2018
0 голосов
1 ответ
0 голосов
1 ответ

Я хотел бы создать СДР с записями в следующем формате: (поездка, (данные начальной станции),...

user3562462 / 18 сентября 2018
0 голосов
1 ответ

Я новичок в Python / PySpark, и у меня возникают проблемы с очисткой данных перед использованием их...

lauvdb / 18 сентября 2018
0 голосов
2 ответов

Я пытаюсь подсчитать появления определенных предметов на определенную дату. Структура моего ввода...

pirox22 / 15 сентября 2018
0 голосов
1 ответ

Мне нужно перенести код с PySpark 1.3 на 2.3 (также только на Python 2.7), и у меня есть следующее...

ivan_bilan / 14 сентября 2018
0 голосов
0 ответов

Может кто-нибудь объяснить мне, почему RDDFunctions.sliding должен возвращать пустой RDD, если...

freedev / 13 сентября 2018
0 голосов
2 ответов

У меня есть датафрейм, который выглядит следующим образом: column1_ID column2 column3 column4 A_123...

Vivek Narayanasetty / 12 сентября 2018
0 голосов
0 ответов

Я использую Spark на компьютере с Windows. Я новичок и при создании RDD из файла tsv я столкнулся с...

Manu Bhogal / 12 сентября 2018
0 голосов
2 ответов

Я пытаюсь создать фрейм данных из RDD, чтобы иметь возможность записи в json со следующим форматом...

Pinky884 / 12 сентября 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...