Вопросы с тегом pyspark

0 голосов

1 ответ

Pyspark RDD объединяет текущую строку со следующей, пока длина текущей строки не достигнет x

Справочная информация: В настоящее время у меня загружаются большие файлы в AWS S3, эти файлы...

Pureluck / 19 декабря 2018

0 голосов

3 ответов

Лучше всего копировать столбцы DataFrame в Python / PySpark?

Это для Python / PySpark с использованием Spark 2.3.2.Я ищу наилучший подход для копирования...

Acid Rider / 19 декабря 2018

0 голосов

1 ответ

Концептуальный вопрос о tf-idf с использованием pyspark

В официальной документации pyspark есть пример tf-idf. hashingTF = HashingTF() tf = hashingTF

Breno Arruda / 19 декабря 2018

0 голосов

2 ответов

NoSuchMethodException: scala.tools.nsc.interpreter.ILoop.scala при запуске кода pyspark zepplin

Я пытаюсь запустить ячейку pyspark в zeppelin, но получаю исключение NoSuchMethodException для...

carlos / 19 декабря 2018

0 голосов

1 ответ

Spark Kafka потокового в Spark 2.3.0 с питоном

Я недавно обновился до Spark 2.3.0.У меня была существующая работа на спарк, которая раньше...

User007 / 19 декабря 2018

0 голосов

0 ответов

Написание сложной функции внутри карты уменьшить Pyspark

У меня есть такой CSV-файл с данными (большой файл> 20 ГБ), как показано ниже: ObjectID,Lon,Lat...

Ahmad / 18 декабря 2018

0 голосов

0 ответов

Проблема настройки Python ENV для рабочих узлов.

У меня есть восьмиузловой кластер YARN.Я начал с конфигурации одного узла, и на этом все работает

fanbondi / 18 декабря 2018

0 голосов

1 ответ

Оптимизированный способ накопления суммы на большом количестве столбцов в pyspark

У меня есть DataFrame, содержащий 752 (идентификатор, дата и 750 столбцов объектов) и около 1,5...

Shrashti / 18 декабря 2018

0 голосов

0 ответов

Pyspark - Как записать полученные данные в сервис с помощью Rest API

У меня есть конечная точка Rest, которая принимает данные json.Я хотел бы записать результат моей...

Sinan Erdem / 18 декабря 2018

0 голосов

1 ответ

Может ли UDF из pyspark вернуть объект, отличный от столбца?

Я хочу применить некоторые функции к столбцам pysaprk dataframe, удастся это сделать с помощью UDF,...

Jose / 18 декабря 2018

0 голосов

0 ответов

Pyspark прочитал 7z сжатый файл, содержащий CSV

Как прочитать сжатый файл 7z в Pyspark? Я попытался создать фрейм данных, как показано ниже: df =...

Spark user / 18 декабря 2018

0 голосов

1 ответ

Как читать многоуровневый JSON в Pyspark?

**Json Structure is -:** aa.json [[{"foo":"test1"}...

Udit Mittal / 18 декабря 2018

0 голосов

1 ответ

Подсчитать количество элементов, удовлетворяющих дополнительному условию в другом столбце при группировании в pyspark

Следующая команда pyspark df = dataFrame.groupBy("URL_short").count()

Francesco Boi / 18 декабря 2018

0 голосов

1 ответ

pyspark условно разобрать текстовый файл фиксированной ширины

Таким образом, у меня есть файл фиксированной ширины, и я не буду знать его формат, пока...

Jogianni / 18 декабря 2018

0 голосов

1 ответ

Ведение исторической таблицы с обновлениями из новых данных на userID-SQL

Учитывая, что у меня есть таблица с историческими данными (за 2 года), которая была создана после...

Aman Gupta / 18 декабря 2018

0 голосов

1 ответ

Как интегрировать Spark Streaming с Tensorflow?

Цель: Непрерывная подача сетевых пакетов в Kafka Producer, подключая их к Spark Streaming, чтобы...

Burak / 18 декабря 2018

0 голосов

1 ответ

Как получить доступ к глобальному временному представлению в другом приложении pyspark?

У меня есть спарк-оболочка, которая вызывает pyscript и создала глобальное временное представление...

vikrant rana / 18 декабря 2018

0 голосов

1 ответ

Pyspark Объединение двух датафреймов с коллекцией

предположим, у меня есть следующие DataFrames.Как я могу выполнить соединение между ними двумя,...

lolo / 18 декабря 2018

0 голосов

2 ответов

В чем разница между двумя методами в соединении двух фреймов данных Pyspark

В чем разница между двумя способами объединения двух фреймов данных Pyspark.1. Использование...

Rishabh Mishra / 18 декабря 2018

0 голосов

2 ответов

От pyspark.sql.dataframe.DataFrame к типу массива

Предположим, у меня есть следующий DataFrame. import pyspark.sql.functions as f from pyspark.sql

lolo / 18 декабря 2018

0 голосов

0 ответов

Произошла ошибка при вызове o69.applySchemaToPythonRDD

При попытке преобразовать Spark RDD в фрейм данных возникла следующая ошибка при запуске задания...

TheShark / 17 декабря 2018

0 голосов

2 ответов

Возможен ли pyspark для чтения из таблицы в S3, обработки данных и сохранения в той же папке?

я хочу объединить некоторые данные в папке на s3 и сохранить данные (объединенные) в том же...

user3153442 / 17 декабря 2018

0 голосов

1 ответ

Чтение файла фиксированной ширины с использованием схемы из файла json в pyspark

У меня есть файл фиксированной ширины, как показано ниже 00120181120xyz12341 00220180203abc56792...

user2935539 / 17 декабря 2018

0 голосов

2 ответов

PySpark - более эффективный метод подсчета общих элементов

У меня есть два кадра данных, скажем dfA и dfB. Я хочу взять их пересечение, а затем посчитать...

Qubix / 17 декабря 2018

0 голосов

1 ответ

Построение гистограммы очень огромной колонны писпарков

Смежный вопрос: Pyspark: показать гистограмму столбца фрейма данных У меня очень длинный столбец,...

mommomonthewind / 17 декабря 2018