Вопросы с тегом pyspark-SQL - PullRequest

Вопросы с тегом pyspark-SQL

3 голосов
2 ответов

Я использую Apache spark в качестве инструмента ETL для извлечения таблиц из Oracle в Elasticsearch...

nimeresam / 22 сентября 2019
0 голосов
0 ответов

Как и в MapReduce, хеш-соединение Shuffle работает лучше всего, когда данные не перекошены и...

dailygirlflower / 22 сентября 2019
0 голосов
1 ответ

Я импортирую данные из файла csv, в котором есть столбцы Reading1 и Reading2, и сохраняю их в...

Saikat / 22 сентября 2019
1 голос
0 ответов

когда df1 и df2 имеют одинаковое количество столбцовкакова сложность Shuffled HashJoin по умолчанию

moon ryu / 21 сентября 2019
1 голос
2 ответов

У меня есть фрейм данных, который выглядит как +-------+-------+ | Code1 | Code2 |...

kschluns / 20 сентября 2019
0 голосов
0 ответов
1 голос
1 ответ

Как я могу преобразовать метку времени в формате 2019-08-22T23:57:57-07:00 в unixtime, используя...

crash / 20 сентября 2019
0 голосов
1 ответ

Я использую этот запрос в базе данных MySQL select *, UNIX_TIMESTAMP(CONVERT_TZ(...

crash / 20 сентября 2019
0 голосов
0 ответов

в фрейме pysparkдопустим, что есть dfA и dfB, dfA : name , class dfB : class, time , если dfA

dailygirlflower / 20 сентября 2019
0 голосов
1 ответ

Я хотел бы знать, приведет ли положение определенного условия фильтра в запросе к значительному...

marie20 / 19 сентября 2019
0 голосов
0 ответов

Я хотел бы динамически параметризовать запросы SQL с текущей датой и минус 90 дней назад, чтобы...

ratchet / 11 июля 2019
0 голосов
0 ответов

Итак, я использую Python 3, pyspark и Hive. Я хочу перебрать текст и вывести его, если есть...

James Davinport / 11 июля 2019
0 голосов
1 ответ

когда я запускаю spark.sql(''' select client,avg(amount) over (partition by client...

user1450410 / 11 июля 2019
1 голос
1 ответ

Я хочу отлаживать код Spark в PyCharm, потому что его легче отлаживать.Но мне нужно добавить...

Litchy / 11 июля 2019
0 голосов
1 ответ

Предположим, что в приведенной ниже таблице указан фрейм данных pyspark, и я хочу применить фильтр...

Manu Sharma / 11 июля 2019
0 голосов
0 ответов
0 голосов
0 ответов

У меня есть требование, при котором я должен выполнять определенные шаги внутри моего приложения в...

Sidd / 10 июля 2019
0 голосов
0 ответов

Мне удалось реализовать скользящее среднее по скользящему окну, но есть ли способ реализовать также...

user1450410 / 10 июля 2019
0 голосов
0 ответов

Я использую Pyspark (Python 3.7 с Spark 2.4) и имею небольшую строку кода для сбора даты из одного...

Sidd / 10 июля 2019
0 голосов
1 ответ

У меня есть фрейм данных Pyspark, который выглядит как - id age cost gender 1 38 230 M 2 40 832 M 3...

Pallavi Verma / 09 июля 2019
0 голосов
1 ответ

Я пытаюсь использовать pyspark для дедупликации базы данных, и как часть конвейера я хочу создать...

user2870492 / 09 июля 2019
0 голосов
2 ответов

Недавно я встретил что-то странное в SparkНасколько я понимаю, учитывая метод хранения на основе...

Charles Du / 08 июля 2019
0 голосов
0 ответов

py4j.protocol.Py4JJavaError: An error occurred while calling o174.save. : java.lang

lucaqian / 08 июля 2019
1 голос
1 ответ

Я пытаюсь получить счет таблицы Импалы в pyspark.Но я получаю неправильные результаты в искре....

Surabhi_ks / 08 июля 2019
0 голосов
1 ответ

У меня есть фрейм данных (df) с 1 миллионом строк и двумя столбцами (ID (long int) и описание...

Shariful Islam / 05 июля 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...