Вопросы с тегом pyspark-SQL

3 голосов

2 ответов

Как определить, следует ли преобразовывать десятичные столбцы в целые или двойные?

Я использую Apache spark в качестве инструмента ETL для извлечения таблиц из Oracle в Elasticsearch...

nimeresam / 22 сентября 2019

0 голосов

0 ответов

в каком случае shuffle pyspark (mapreduce?) не хорошо?

Как и в MapReduce, хеш-соединение Shuffle работает лучше всего, когда данные не перекошены и...

dailygirlflower / 22 сентября 2019

0 голосов

1 ответ

Хранение значений кратных столбцов в фрейме данных pyspark под новым столбцом

Я импортирую данные из файла csv, в котором есть столбцы Reading1 и Reading2, и сохраняю их в...

Saikat / 22 сентября 2019

1 голос

0 ответов

какова сложность Shuffled HashJoin по умолчанию?

когда df1 и df2 имеют одинаковое количество столбцовкакова сложность Shuffled HashJoin по умолчанию

moon ryu / 21 сентября 2019

1 голос

2 ответов

Как применить несколько фильтров к фрейму данных?

У меня есть фрейм данных, который выглядит как +-------+-------+ | Code1 | Code2 |...

kschluns / 20 сентября 2019

0 голосов

0 ответов

Как реализовать скрипт Pyspark для усечения таблиц и вставки данных из файла JSON в базу данных PostgreSQL?

У меня есть входной файл JSON: { "table_addresses": [ {"id": 123,...

Gianluca / 20 сентября 2019

1 голос

1 ответ

PySpark - Spark SQL: как преобразовать метку времени со смещением UTC в эпоху / unixtime?

Как я могу преобразовать метку времени в формате 2019-08-22T23:57:57-07:00 в unixtime, используя...

crash / 20 сентября 2019

0 голосов

1 ответ

PySpark: как использовать функцию MySQL с подключением JDBC?

Я использую этот запрос в базе данных MySQL select *, UNIX_TIMESTAMP(CONVERT_TZ(...

crash / 20 сентября 2019

0 голосов

0 ответов

pyspark один ко многим присоединиться к операции

в фрейме pysparkдопустим, что есть dfA и dfB, dfA : name , class dfB : class, time , если dfA

dailygirlflower / 20 сентября 2019

0 голосов

1 ответ

Производительность вывода условия фильтра

Я хотел бы знать, приведет ли положение определенного условия фильтра в запросе к значительному...

marie20 / 19 сентября 2019

0 голосов

0 ответов

Параметризация Spark SQL с датами

Я хотел бы динамически параметризовать запросы SQL с текущей датой и минус 90 дней назад, чтобы...

ratchet / 11 июля 2019

0 голосов

0 ответов

Ошибка: в <string>'требуется строка в качестве левого операнда, а не DataFrame

Итак, я использую Python 3, pyspark и Hive. Я хочу перебрать текст и вывести его, если есть...

James Davinport / 11 июля 2019

0 голосов

1 ответ

pyspark использует диапазон между функциями в spark sql

когда я запускаю spark.sql(''' select client,avg(amount) over (partition by client...

user1450410 / 11 июля 2019

1 голос

1 ответ

Как добавить баночку в Spark в Pycharm

Я хочу отлаживать код Spark в PyCharm, потому что его легче отлаживать.Но мне нужно добавить...

Litchy / 11 июля 2019

0 голосов

1 ответ

Pyspark: множественный фильтр на строковом столбце

Предположим, что в приведенной ниже таблице указан фрейм данных pyspark, и я хочу применить фильтр...

Manu Sharma / 11 июля 2019

0 голосов

0 ответов

Есть ли способ, где я могу получить сообщение [данные столбца значения] из Spark Dataframe в строковую переменную?

Я хочу получить только первое сообщение от производителя Kafka, и на основе этого сообщения я...

Akash Patel / 10 июля 2019

0 голосов

0 ответов

Как передать args в python с "дефисом" в имени arg

У меня есть требование, при котором я должен выполнять определенные шаги внутри моего приложения в...

Sidd / 10 июля 2019

0 голосов

0 ответов

Pyspark - внедрить stddev, квантильную массу и наклон линии тренда в скользящем окне

Мне удалось реализовать скользящее среднее по скользящему окну, но есть ли способ реализовать также...

user1450410 / 10 июля 2019

0 голосов

0 ответов

Ошибка при сборе данных из столбца dataframe в Pyspark

Я использую Pyspark (Python 3.7 с Spark 2.4) и имею небольшую строку кода для сбора даты из одного...

Sidd / 10 июля 2019

0 голосов

1 ответ

Сводный стол и onehot в pyspark

У меня есть фрейм данных Pyspark, который выглядит как - id age cost gender 1 38 230 M 2 40 832 M 3...

Pallavi Verma / 09 июля 2019

0 голосов

1 ответ

Полная блокировка присоединиться в Pyspark

Я пытаюсь использовать pyspark для дедупликации базы данных, и как часть конвейера я хочу создать...

user2870492 / 09 июля 2019

0 голосов

2 ответов

Порядок столбцов Spark Union

Недавно я встретил что-то странное в SparkНасколько я понимаю, учитывая метод хранения на основе...

Charles Du / 08 июля 2019

0 голосов

0 ответов

pyspark save hbase error: org.apache.spark.sql.execution.datasources.hbase

py4j.protocol.Py4JJavaError: An error occurred while calling o174.save. : java.lang

lucaqian / 08 июля 2019

1 голос

1 ответ

Импала запрос возвращает неверные результаты в Pyspark

Я пытаюсь получить счет таблицы Импалы в pyspark.Но я получаю неправильные результаты в искре....

Surabhi_ks / 08 июля 2019

0 голосов

1 ответ

Получение "повысить EOFError" при вызове функции df.show ()

У меня есть фрейм данных (df) с 1 миллионом строк и двумя столбцами (ID (long int) и описание...

Shariful Islam / 05 июля 2019