Вопросы с тегом pyspark

0 голосов

1 ответ

Нет такого файла или каталога в режиме спарк кластера

Я пишу потоковое приложение с использованием pyspark, которое в основном обрабатывает данные....

Rakesh SKadam / 03 июня 2018

0 голосов

0 ответов

Применяется ли переменная окружения PYSPARK_PYTHON только для вошедшего в систему пользователя?

Это может быть больше вопросом Linux, но я запускаю задание Pyspark с UDF, который зависит от...

SherMM / 03 июня 2018

0 голосов

1 ответ

Pyspark write.csv () закрывается на YARN для превышения ограничений памяти

Предпосылка: я не контролирую свой кластер и работаю над тем, что проблема заключается в моем коде,...

kchalk / 03 июня 2018

0 голосов

0 ответов

tenorflow.python.framework.errors_impl.UnknownError: Ошибка ввода / вывода

Мы пытаемся поиграть с Tensorflow на Spark в кластер баз данных Azure, используя ядро pythonзор...

Sayak Ghosh / 03 июня 2018

0 голосов

0 ответов

PySpark Rdd в Dataframe очень медленно

У меня есть фрейм данных, который в какой-то момент я конвертирую в rdd для выполнения...

jrgn / 02 июня 2018

0 голосов

0 ответов

Я столкнулся с проблемой с выводом писателя pyspark2.2 CSV

Я хочу перенести код pyspark с 1.6 на 2.x.В 1.6 я использовал синтаксис input_df

SB07 / 02 июня 2018

0 голосов

1 ответ

зажечь код Java для Python

Я получаю часть проверенных данных, например: from pyspark.sql.types import DateType import pyspark...

Leon / 02 июня 2018

0 голосов

1 ответ

EMR + Spark + KMS - сохранить расшифрованные данные

Мы обрабатываем зашифрованные данные на клиентской стороне KMS в EMR с использованием spark.Я могу...

TopCoder / 01 июня 2018

0 голосов

0 ответов

pyspark drop и объединять строки

Я пытаюсь проанализировать какой-то файл и поместить данные в таблицу: File = "somehtml

vamper1234 / 01 июня 2018

0 голосов

0 ответов

Отметки времени микросекунды в PySpark

Я пытаюсь преобразовать микросекундную строку в метку времени, используя следующий синтаксис в...

SecretAgent / 01 июня 2018

0 голосов

1 ответ

Почему при вызове нескольких groupBy с помощью pyspark вызывается файл «java.nio.channels.ClosedByInterruptExceptio»?

Я запускаю задание pyspark (python 3.5, spark 2.1, java8) в режиме Yarn-Client с пограничного узла...

Dr. Fabien Tarrade / 01 июня 2018

0 голосов

1 ответ

Типы паркета PySpark

Я использую PySpark для чтения относительно большого CSV-файла (~ 10 ГБ): ddf = spark.read

ptphdev / 01 июня 2018

0 голосов

0 ответов

не может засолить слабые объекты

Я пытаюсь использовать spark для извлечения пространственных данных из CSV и представления их в...

A.HADDAD / 01 июня 2018

0 голосов

1 ответ

Округлить двойные значения и привести к целым числам

У меня есть фрейм данных в PySpark, как показано ниже. import pyspark.sql.functions as func df =...

Question_bank / 01 июня 2018

0 голосов

0 ответов

Странная проблема, возникающая при использовании spark-sql

У меня ниже 3 sqls. select count(distinct visitor_id) from df_and_lkp_join_cache --178996 select...

ashwani gupta / 01 июня 2018

0 голосов

1 ответ

Как спарк копирует данные между таблицами Кассандры?

Может ли кто-нибудь объяснить внутреннюю работу spark при чтении данных из одной таблицы и записи...

farazmateen / 01 июня 2018

0 голосов

2 ответов

Прочитайте файл SAS, чтобы получить метаинформацию

Очень новые технологии в науке о данных.В настоящее время работаем над чтением файла SAS (

K.Pil / 31 мая 2018

0 голосов

0 ответов

Почему PCA в pyspark не хватает памяти?

Когда я запускаю PCA в pyspark, у меня заканчивается память.Это pyspark 1.6.3, а среда исполнения -...

kingledion / 31 мая 2018

0 голосов

1 ответ

Pyspark: функция Concat генерирует столбцы в новый фрейм данных

У меня есть pyspark dataframe (df) с n cols, я хотел бы создать еще одну df из n cols, где каждый...

shanlodh / 31 мая 2018

0 голосов

0 ответов

Pyspark с Zeppelin: распространение файлов на узлы кластера в сравнении с SparkContext.addFile ()

У меня есть библиотека, которую я создал, и которую я хочу сделать доступной для всех узлов...

kingledion / 31 мая 2018

0 голосов

2 ответов

Spark на Fargate не может найти локальный IP

У меня есть задание на сборку, которое я пытаюсь настроить в кластере AWS Fargate из 1 узла.Когда я...

Adam / 31 мая 2018

0 голосов

1 ответ

Почему PySpark dropDuplicates и Join дает результаты ODD

PySpark дает мне небольшие странные результаты после dropDuplicates и объединения наборов данных

default_settings / 31 мая 2018

0 голосов

3 ответов

Pyspark: как продублировать строку n раз в датафрейме?

У меня есть такой кадр данных, и я хочу продублировать строку n раз, если столбец n больше единицы:...

Julien Thillard / 31 мая 2018

0 голосов

0 ответов

Разбор конкретных столбцов с pyspark

У меня настроен следующий скрипт: conf = SparkConf().setAppName("GetAif") sc =...

res5802 / 31 мая 2018

0 голосов

2 ответов

Создание таблиц Spark SQL из нескольких паркетных дорожек

Я использую блоки данных.Я пытаюсь создать таблицу, как показано ниже ` target_table_name =...

SpaceOddity / 31 мая 2018