Вопросы с тегом pyspark

0 голосов

0 ответов

Как применить несколько шаблонов регулярных выражений в фрейме данных pyspark

Я пытаюсь реализовать udf, который принимает входной Dataframe и имя столбца, каждая запись во...

marjun / 30 апреля 2018

0 голосов

0 ответов

Mixin Factory Классы с писпарком

Я работаю с PySpark, используя фабрику mixin двух классов Но каждый раз, когда функция карты...

Zafar Mahmood / 30 апреля 2018

0 голосов

1 ответ

Настройка pyspark JVM памяти (Xmx)

Когда я запускаю искровое задание, написанное с помощью pyspark, у меня запускается jvm с...

Reut Sharabani / 30 апреля 2018

0 голосов

1 ответ

Импорт данных TensorFlow из pyspark

Я хочу создать прогностическую модель для нескольких сотен гигабайт данных. Данные нуждаются в...

Gianluca Micchi / 30 апреля 2018

0 голосов

0 ответов

Сохранение данных из Spark в MongoDB и Mysql

Я могу сохранять данные из spark в Mysql, но не в MongoDB и Mysql одновременно. Может кто-нибудь...

Rahul Anand / 30 апреля 2018

0 голосов

0 ответов

java.lang.OutOfMemoryError: превышен предел издержек GC в PYSPARK

Мой сценарий искровой работы заключается в подключении к базе данных PostgreSQL, чтении данных из...

Jaya Sree Meruga / 30 апреля 2018

0 голосов

1 ответ

Как найти событие в минуту за определенный промежуток времени, используя pyspark и scala

tweet id tweet created minute Game start minute Game end minute 1001 145678 145600 145730 1002...

santanna / 30 апреля 2018

0 голосов

1 ответ

Как игнорировать заголовки в PySpark при использовании Athena и AWS Glue Data Catalog

Предположим, у меня есть CSV-файл, подобный этому: "Col1Name", "Col2Name"...

Jared / 30 апреля 2018

0 голосов

1 ответ

PySpark MLlib: AssertionError: Классификатор не расширяется от HasRawPredictionCol

Я новичок в Искре. Я хочу использовать мультиклассовую классификацию для SVM в PySpark MLlib. Я...

Sarsoura / 30 апреля 2018

0 голосов

1 ответ

уменьшить операцию в словаре с искровым возвратом вместо фрейма данных

Я пишу операцию reduce, ожидаю фрейм данных вместо словаря. Согласно следующему коду, он выдаст...

user2805885 / 29 апреля 2018

0 голосов

1 ответ

Каким будет эквивалент scala следующего кода на python?

men = data.flatMap(lambda x :x['text'].split(" ")) \ .filter(lambda x: len(x

Saurabh / 29 апреля 2018

0 голосов

1 ответ

Pyspark -> StringIndexer: значение «None» заменяется числом

У меня есть фрейм данных, который имеет несколько значений «None». После преобразования строковых...

Tomas Goffa / 29 апреля 2018

0 голосов

0 ответов

Парное вычисление подобия в PySpark RDD занимает вечность

У меня есть RDD (называемый «данными»), где каждая строка представляет собой пару id / vector,...

user3490622 / 29 апреля 2018

0 голосов

0 ответов

UnboundLocalError: локальная переменная submit_args, на которую ссылаются перед присваиванием -Pyspark

Я очень новичок в Pyspark. Я использую Anaconda для выполнения кода Pyspark. Я пытаюсь инициировать...

Atanu Ghosh / 29 апреля 2018

0 голосов

0 ответов

Ошибка в конвейере pyspark

Я использую PySpark Pipeline для создания некоторых функций. pipeline=Pipeline(stages=[token_q1...

Muss / 29 апреля 2018

0 голосов

1 ответ

сгруппировать и преобразовать несколько столбцов в список, используя pyspark

Я использую pyspark. Итак, у меня есть искровой датафрейм, который выглядит так: a | b | c 5 | 2 |...

YOLO / 28 апреля 2018

0 голосов

1 ответ

Как добавить UDF в конвейер pyspark?

У меня есть следующий код, который в основном выполняет конвейер разработки функций:...

Muss / 28 апреля 2018

0 голосов

1 ответ

Как я могу запустить Pyspark в интерактивном режиме в Jupyter, используя режим YARN-client?

Теперь мне удалось запустить Pyspark в Jupyter в локальном режиме вторым способом, упомянутым в...

fuko / 28 апреля 2018

0 голосов

1 ответ

Spark Groupby: разрешить одну запись в более чем двух группах

Предположим, у меня есть СДР, ключи которого имеют вид [1, 2, 3, 4, 5...], теперь я хочу...

DarkZero / 28 апреля 2018

0 голосов

1 ответ

Дополнительные разделители при записи искрового фрейма данных в hdfs

Один из столбцов в моем исходном файле данных содержит двойные кавычки ("), и когда я пытаюсь...

vp1008 / 28 апреля 2018

0 голосов

1 ответ

Как рассчитать Max (Date) и Min (Date) для DateType в фрейме данных pyspark?

В кадре данных есть столбец даты в строковом типе '2017-01-01' Преобразуется в DateType()...

Elsa Li / 27 апреля 2018

0 голосов

5 ответов

Как получить только одну строку, которая чуть меньше указанного значения в кадре данных искры

У меня есть датафрейм, как показано ниже - Id,timestamp 100,1 200,2 300,3 400,4 500,5 600,6 А...

Rajendra Jangir / 27 апреля 2018

0 голосов

3 ответов

py4j.protocol.Py4JJavaError произошла при вызове z: org.apache.spark.api.python.PythonRDD.collectAndServe

Я установил apache-spark и pyspark на свою машину (Ubuntu), а в Pycharm я также обновил переменные...

Saeid SOHEILY KHAH / 27 апреля 2018

0 голосов

0 ответов

Оптимизация большого соединения в PySpark

В настоящее время я работаю над набором данных StackOverflow из открытых наборов данных Google...

Jiew Meng / 27 апреля 2018

0 голосов

2 ответов

Интерполировать столбец DataFrame и сортировать по другому столбцу в PySpark или Pandas

Учитывая следующий DataFrame, нам нужно интерполировать my_column значения из примера и...

ivan_bilan / 27 апреля 2018