Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
1 ответ

У меня есть текстовый файл, как показано ниже: OrderId | OrderItem | OrderDate | OrderPrice |...

vikrant rana / 24 октября 2018
0 голосов
1 ответ

При выполнении функции сопоставления в Pyspark я часто хочу отбрасывать данные, которые не...

Mark_Anderson / 24 октября 2018
0 голосов
1 ответ

Хотелось бы узнать, знает ли кто-нибудь о том, сколько времени Спарк тратит на чтение и запись,...

Beefger / 24 октября 2018
0 голосов
1 ответ

У меня есть искровой фрейм данных, который похож на id start_time feature 1 01-01-2018 3.567 1...

Gayatri / 24 октября 2018
0 голосов
0 ответов

У меня есть искровой фрейм данных ~ 70 мил строк с 3 столбцами ['id', 'date', 'val'] и вложенным...

tkim / 24 октября 2018
0 голосов
0 ответов

Я планирую использовать SANSA-RDF для чтения файлов RDF / XML черепах в Spark и выполнения запросов...

sam / 23 октября 2018
0 голосов
1 ответ

Как остановить любой контекст запуска, работающий в данный момент. Информационный API: версия Scala...

anilhr2learn / 23 октября 2018
0 голосов
0 ответов

Я новичок в использовании PySpark, и я пытаюсь разделить фрейм данных с одним столбцом (с...

Subraveti Suraj / 23 октября 2018
0 голосов
0 ответов

Я пытаюсь прочитать CSV при выводе схемы: df = spark.read.csv('path/to/csv',...

Dan / 23 октября 2018
0 голосов
2 ответов

У меня есть xgboost модель, которая была обучена на чистом Python и преобразована в pmml формат

Vladimir Sazonov / 23 октября 2018
0 голосов
0 ответов

Я хочу преобразовать Spark DataFrame в CoordinateMatrix, а затем RowMatrix, чтобы впоследствии...

SarahData / 23 октября 2018
0 голосов
0 ответов

У меня есть график, который выглядит следующим образом: g.vertices.show() +---+ | id| +---+ | 1| |...

Thagor / 23 октября 2018
0 голосов
1 ответ

У меня есть сценарий использования, в котором есть таблица с одним столбцом, которая имеет...

Manish Mehra / 23 октября 2018
0 голосов
0 ответов

Я новичок в EMR.Я попытался разобрать файл 500 ГБ в спарк.Я установил искровой кластер в EMR с 32...

venkateshc / 23 октября 2018
0 голосов
0 ответов

Привет, я не могу сохранить модель pyspark в своей локальной папке.Я использую следующий код:...

Krishnendu kundu / 23 октября 2018
0 голосов
0 ответов

Предположим, у меня есть фрейм данных с двумя столбцами: a и b.Теперь я хотел бы иметь счет на пару...

www.data-blogger.com / 23 октября 2018
0 голосов
0 ответов

Я создал 3 кадра данных, выполнив следующий код.sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD|...

Sai / 23 октября 2018
0 голосов
1 ответ

Перво-наперво, надеюсь, я правильно форматирую свой вопрос. У меня есть этот фрейм данных: df = sc

Toutsos / 23 октября 2018
0 голосов
0 ответов

Я пытаюсь отобразить данные за каждый ip источника, а затем построить все кривые на одном и том же...

Miguel A. Friginal / 23 октября 2018
0 голосов
0 ответов

У меня есть таблица, подобная следующей Qubole: use dm; CREATE EXTERNAL TABLE IF NOT EXISTS fact (...

Ambrish / 23 октября 2018
0 голосов
3 ответов

Я хочу переименовать одно имя столбца из столбцов данных, поэтому в настоящее время имя столбца...

andy / 23 октября 2018
0 голосов
0 ответов

Мои данные паркетные и разделены на S3.По сути, это дополнительная нагрузка, но с S3.У меня есть...

user1 / 23 октября 2018
0 голосов
1 ответ

Мне нужно построить два независимых столбца: первый представляет данные, второй - время:...

Miguel A. Friginal / 23 октября 2018
0 голосов
2 ответов

В этих l ink говорится, что усеченный MD5 распределен равномерно.Я хотел проверить это с помощью...

Fisseha Berhane / 22 октября 2018
0 голосов
1 ответ

У меня есть два фрейма данных: df1 +---+-----------------+ |id1| items1| +---+-----------------+ |...

carpediem / 22 октября 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...