Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
1 ответ

Я смотрю на разделы СДР >>> rdd = sc.parallelize(range(10), 5) >>> rdd.collect()...

user2314737 / 28 июня 2018
0 голосов
0 ответов

У меня есть задание Spark 2.2, написанное в pyspark, которое пытается прочитать 300BT данных...

Costas Piliotis / 27 июня 2018
0 голосов
2 ответов

Данные выглядят так - +-----------+-----------+-----------------------------+ | id| point| data|...

sjishan / 27 июня 2018
0 голосов
1 ответ

Будет очень трудно прочитать выходные данные, если они не в правильном формате, как показано на...

Gaurav Tambi / 27 июня 2018
0 голосов
1 ответ

У меня есть список искровых фреймов данных, и я должен выполнить с ними некоторую операцию Я хочу...

Gladiator / 27 июня 2018
0 голосов
1 ответ

У меня следующая команда python / pandas: df.groupby('Column_Name').agg(lambda x: x

TSAR / 27 июня 2018
0 голосов
1 ответ

Я работаю над проектом анализа настроений, используя данные, извлеченные в формате json,...

jowwel93 / 27 июня 2018
0 голосов
1 ответ

Я работаю с версией Pyspark 2.3.0. я фильтрую фрейм данных в столбце метки времени. | - requestTs:...

sparkly / 27 июня 2018
0 голосов
2 ответов

У меня есть следующие Spark DataFrames: df1 с колонками (id, name, age) df2 с колонками (id, salary...

bobby1985 / 27 июня 2018
0 голосов
2 ответов

Я пытался выполнить пример преобразования строки JSON в фрейм данных в искре, следуя официальной...

harshlal028 / 27 июня 2018
0 голосов
1 ответ

У меня есть 6 CSV файлы в HDFS. 3 присутствуют в каталоге с именами /user/data/ и 3 в /user/docs/....

Question_bank / 27 июня 2018
0 голосов
1 ответ

В моем rdd есть два строковых элемента: «53 45 61», «0 1 2». Я хотел бы сжать и отобразить его...

unchained / 27 июня 2018
0 голосов
0 ответов

Я хочу объединить 2 записи на основе ключа, но не хочу пропустить и непарные записи. Например, у...

Anirudha Anikhindi / 26 июня 2018
0 голосов
1 ответ

Я прочитал следующие в документации Dask в разделе известных ограничений: Это [Dask] не является...

Amelio Vazquez-Reina / 26 июня 2018
0 голосов
1 ответ

Кажется, что это должно быть легко, как будто это основной вариант использования этого набора...

Narfanator / 26 июня 2018
0 голосов
0 ответов

команда df_load.describe () toPandas. (). Транспонировать () Приведенная выше команда дает...

Gaurav Tambi / 26 июня 2018
0 голосов
1 ответ

У меня есть два кадра данных (более 1 млн записей). Только ~ 10% строк отличаются. Я знаю, как...

max04 / 26 июня 2018
0 голосов
1 ответ

Я видел несколько сообщений, но агрегация выполняется по нескольким столбцам, но я хочу, чтобы...

tarun kumar Sharma / 26 июня 2018
0 голосов
0 ответов

Я новичок в apace spark, как мы можем создать контекст искры для веб-приложений. Ниже, я...

Robert / 26 июня 2018
0 голосов
0 ответов

Я пытаюсь вычислить матрицу сходства пользователей по их метаданным.После этого вопроса я нашел...

Aziz Ilyosov / 26 июня 2018
0 голосов
1 ответ

У меня есть следующий пример кода Python, и когда я пытаюсь выполнить, я получаю сообщение об...

Yuva / 26 июня 2018
0 голосов
2 ответов

Предположим, у меня есть фрейм данных Pyspark с двумя столбцами: ID, зарплата.Фрейм данных имеет...

Tran Dinh Cuong / 26 июня 2018
0 голосов
1 ответ

Основываясь на предложении на этот вопрос, который я задал ранее , я смог преобразовать свой RDD в...

Craig / 26 июня 2018
0 голосов
1 ответ

Я хочу ограничить скорость при извлечении данных из кафки.Мой код выглядит так: df = spark.read

杨嘉辰 / 26 июня 2018
0 голосов
1 ответ

У меня есть запрос Hive, который возвращает данные в этом формате: ip, category, score 1.2.3.4, X,...

Craig / 25 июня 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...