Вопросы с тегом pyspark

0 голосов

1 ответ

как использовать пользовательскую реализацию udf для округления столбца

У меня есть фрейм данных pyspark: +-------------------+ | to_return_day| +-------------------+ | -2

liang xing / 21 февраля 2019

0 голосов

0 ответов

Асинхронный Kinesis Producer с использованием Python

У меня есть сценарий использования для вставки нескольких записей каждые 5 минут в поток данных...

prianshu / 21 февраля 2019

0 голосов

1 ответ

Реализация оконных функций (lag, lead) в pyspark?

Ниже приведен код T-SQL.Я попытался преобразовать его в pyspark с помощью оконных функций, которые...

Katelyn Raphael / 21 февраля 2019

0 голосов

1 ответ

Pyspark: невозможно импортировать CSV-файл в экземпляр Zeppilin

Я не могу запустить следующую строку кода. from pyspark.sql import SQLContext sqlContext =...

Naseer / 21 февраля 2019

0 голосов

1 ответ

Использование объединения или добавления в pyspark для объединения двух блоков данных различной ширины

df1.union (df2) Как это можно расширить для обработки фреймов данных pyspark с различным...

Tia S. / 21 февраля 2019

0 голосов

0 ответов

Сохранить словарь как файл CSV / JSON в PySpark

У меня есть словарь, который содержит ключ: имена файлов и значения: столбцы и типы данных имен...

Seeker90 / 21 февраля 2019

0 голосов

0 ответов

Драйвер не найден pycharm с библиотекой подключения pyspark

Поэтому я пытаюсь разработать некоторый код на PyCharm, но продолжаю сталкиваться с ошибкой «Нет...

Leon Pham / 21 февраля 2019

0 голосов

1 ответ

создание фрейма данных из файла с разделителями-запятыми

Я пытаюсь создать фрейм данных из потока данных, который имеет следующий формат: ABC,13:10,23| PQR...

aess / 20 февраля 2019

0 голосов

1 ответ

Что я должен добавить в код, чтобы избежать ошибки «превышает максимально допустимые байты» при использовании pyspark?

У меня есть датафрейм с 4 миллионами строк и 10 столбцами.Я пытаюсь записать это в таблицу в...

sectechguy / 20 февраля 2019

0 голосов

0 ответов

Как передать задание pyspark с локального компьютера в кластер Yarn / Hadoop, запущенный на экземпляре AWS EC2?

Я создал экземпляр AWS EC2 с запущенным на нем Hadoop-2.7.3 с большинством конфигураций по...

Chauhan B / 20 февраля 2019

0 голосов

0 ответов

Pyspark не открывается в веб-браузере

Я пытаюсь выучить pyspark.Я использую анаконду.После запуска команды в командной строке anaconda...

king saqib / 20 февраля 2019

0 голосов

0 ответов

Сохранить pdf в HDFS с помощью pyspark

Я пытаюсь сохранить файл pdf в HDFS с помощью pyspark, и у меня возникают проблемы с поиском...

MLS / 20 февраля 2019

0 голосов

0 ответов

Как оптимизировать 50 миллионов записей pyspark в датафрейме

Я должен обрабатывать миллионы данных еженедельно, поэтому написал функцию, а затем преобразовал ее...

Sonu Kumar Sharma / 20 февраля 2019

0 голосов

0 ответов

pyspark не работает, когда вводится istio sidecar

Мы запускаем pyspark в модуле, где запускается искра в автономном режиме.Водитель не может...

enator / 20 февраля 2019

0 голосов

1 ответ

Совместите два столбца PySpark df, используя информацию из двух других столбцов

У меня есть четыре столбца в моем фрейме данных PySpark: 'drivers','cars'...

Mike / 20 февраля 2019

0 голосов

1 ответ

имя "искра" не определено

Я запускаю приведенный ниже код и получаю сообщение об ошибке (имя «искра» не определено).Я все еще...

user10389226 / 20 февраля 2019

0 голосов

1 ответ

Удалить пустые строки из кортежа RDD

У меня есть СДР в форме (name,[token1, token2, ...]) с ключом name и значениями token.Например:...

Notna / 20 февраля 2019

0 голосов

1 ответ

Вызов pyspark из командной строки приводит к ошибке («pyspark» не распознается как внутренняя / внешняя команда / работающая программа / пакетный файл.)

Я использую Spark версии 2.3.3 и пытаюсь вызвать pyspark из моей командной строки, что приводит к...

Keith / 20 февраля 2019

0 голосов

1 ответ

Вектор объектов PySpark, допускающий значения NULL

Я хотел бы использовать классификатор в PySpark для набора данных, который содержит значения NULL

Spainey / 20 февраля 2019

0 голосов

1 ответ

Сгруппированные данные в фрейме со стрелкой apache

schema = StructType([ StructField("title", StringType(), False),...

DK2 / 20 февраля 2019

0 голосов

1 ответ

Проблема применения косинусного сходства UDF к сгруппированным векторам ML в Pyspark

У меня ошибка при применении UDF (dot_group) к сгруппированным данным.Эта UDF имеет целью...

Nacho / 20 февраля 2019

0 голосов

2 ответов

почему работа с spark не работает на zepplin, когда они работают при использовании оболочки pyspark

я пытаюсь выполнить следующий код на zepplin df = spark.read.csv('/path/to/csv') df

Achref Othmeni / 19 февраля 2019

0 голосов

2 ответов

Неявная схема для pandas_udf в PySpark?

Этот ответ хорошо объясняет, как использовать groupby и pandas_udf для pyspark для создания...

Thomas / 19 февраля 2019

0 голосов

0 ответов

Как связаться с недавно созданным ядром из ноутбука Jupyter

Вновь созданное ядро недоступно в Jupyter Notebook, работающем в кластере AWS EMR Я использую...

Kiśorī Kunj / 19 февраля 2019

0 голосов

0 ответов

Останавливает ли awaitTermination () также контекст искры

Мы пытаемся обработать данные, полученные из сокета pyspark (версия 2.3.2), который работает по...

Nemanja Beric / 19 февраля 2019