Вопросы с тегом РДД

0 голосов

1 ответ

RuntimeException при преобразовании набора данных <Row>в JavaRDD <Row>и затем в Dataframe

Я пытаюсь добавить столбец индекса в набор данных, используя приведенный ниже код, который...

xout / 18 декабря 2018

0 голосов

0 ответов

Произошла ошибка при вызове o69.applySchemaToPythonRDD

При попытке преобразовать Spark RDD в фрейм данных возникла следующая ошибка при запуске задания...

TheShark / 17 декабря 2018

0 голосов

2 ответов

Spark - проблема с сериализацией при разборе файлов с использованием OpenCSV

Я использую Spark для обработки CSV-файлов.Недавно я заменил ручной разбор CSV-строк на opencsv.Вот...

Wojciech Wirzbicki / 17 декабря 2018

0 голосов

1 ответ

Как я могу отсортировать данные RDD (ключ, значение) по значению в Scala?

Я пробовал метод "sortBy", например так: ranks.sortBy(x=> x._2, false); Однако значение рангов...

leroy / 17 декабря 2018

0 голосов

2 ответов

Как эффективно превратить DataFrame в карту (имя столбца -> список значений столбца)

Я пытаюсь достичь следующего фрейма данных: ------------------------- | FOO | BAR | BAZ | | lorem |...

Bertrand / 17 декабря 2018

0 голосов

1 ответ

Записи отсутствуют после создания таблицы из временной таблицы спарка в Spark2

Я создал последовательность данных снизу. val df = sc.parallelize(Seq((100,23,9.50), (100,23,9.51),...

Nagaraj Vittal / 17 декабря 2018

0 голосов

1 ответ

scala spark rdd соединяет две таблицы с одинаковым идентификатором

У меня есть следующие значения: case class Rating(user_ID: Integer, movie_ID: Integer, rating:...

S. N / 16 декабря 2018

0 голосов

1 ответ

Отображение UUID в разъеме Spark Cassandra

У меня есть следующий код для сохранения СДР на Кассандре: JavaRDD<UserByID> mapped = .........

Hasson / 12 декабря 2018

0 голосов

2 ответов

Spark - Python - Получить год / месяц на RDD

У меня есть СДР с двумя элементами (идентификатор, дата).Со следующей структурой: data=sc

Pedro Alves / 12 декабря 2018

0 голосов

0 ответов

Являются ли в Spark синонимы блоков и разделов?

Я знаю, что block - это базовая единица хранения, а partition - базовая единица вычислений в Spark....

chenzhongpu / 12 декабря 2018

0 голосов

1 ответ

Python - Spark - преобразование даты в СДР

Возможно преобразовать элемент RDD в datetime без преобразования RDD в DataFrame? Я пробую много...

Pedro Alves / 10 декабря 2018

0 голосов

0 ответов

PySpark - невозможно объединить два элемента из одного и того же RDD

У меня есть RDD (данные) со следующими элементами: first_name, last_name, technology...

Pedro Alves / 08 декабря 2018

0 голосов

1 ответ

Как преобразовать файл .CSV в файл .Json с помощью Pyspark?

У меня возникла проблема при преобразовании файла .csv в многострочный файл json с помощью pyspark....

khadar / 08 декабря 2018

0 голосов

1 ответ

PySpark - сортировка RDD по второму столбцу

У меня есть этот СДР: [[u''], [u'E01', u'Lokesh'], [u'E10',...

Pedro Alves / 07 декабря 2018

0 голосов

1 ответ

pyspark Udf не работает должным образом, когда применяется преобразование карты с трансляцией?

У меня есть два списка, как показано ниже l=[['A', 'B', 'C'],...

Sai / 07 декабря 2018

0 голосов

1 ответ

В чем различия между RDD и традиционной системой реляционных баз данных

Я новичок в освоении, я знаю SQL, но хотел бы знать различия между RDD (Resilient Distributed...

BWin / 07 декабря 2018

0 голосов

1 ответ

Spark: запись результатов RDD в файловую систему происходит медленно

Я разрабатываю приложение Spark с помощью Scala.Мое приложение состоит только из одной операции,...

m2008m1033m / 06 декабря 2018

0 голосов

3 ответов

сравнивая данные в двух RDDS

rdd1: (m1,p1) (m1,p2) (m1,p3) (m2,p1) (m2,p2) (m2,p3) (m2,p4) rdd2: (m1,p1) (m1,p2) (m1,p3) (m2,p1)...

prakash / 05 декабря 2018

0 голосов

1 ответ

Объединение двух RDD с несколькими компонентами стоимости и выравнивание результата

У меня есть 2 RDD с одним и тем же ключом, но разными типами значений (более 2-х значений).Я хочу...

P-S / 05 декабря 2018

0 голосов

1 ответ

Писпарк |карта JSON RDD и применить трансляцию

В pyspark, как преобразовать входной RDD с JSON в указанный ниже вывод при применении...

P-S / 05 декабря 2018

0 голосов

2 ответов

Как Sdd rdd внутренний элемент списка в Pyspark?

Я создал Rdd, как показано ниже rdd=sc.parallelize([['A','C','B'],...

Sai / 05 декабря 2018

0 голосов

1 ответ

Невозможно изменить значение в JavaRDD

У меня есть вопрос о том, как обновить значения JavaRDD. У меня есть...

user3657377 / 05 декабря 2018

0 голосов

1 ответ

создание пары rdd из двух основанных на rdds счетчиков повторений первого rdd в pyspark?

Я создал 2 RDD, как показано ниже rd2=sc.parallelize([['A', 'B','D'],...

Sai / 05 декабря 2018

0 голосов

1 ответ

Как удалить элементы, как удалить элементы из одного rdd на основе другого rdd и создать новый rdd в pyspark?

Я создал 2 Rdd, как показано ниже rdd=sc.parallelize([(0,'A'),(0,'B'),(1...

Sai / 04 декабря 2018

0 голосов

0 ответов

Используйте aggregateBykey или lowerByKey, чтобы получить агрегированные записи для ключа

У меня есть входные данные в формате RDD[ (Map1, RecordA), (Map2, RecordX), (Map1, RecordB), (Map2,...

abc123 / 03 декабря 2018