Вопросы с тегом апаш-искровой SQL

0 голосов

0 ответов

Apache Spark Driver зависает при сбое трансляции DataFrame из-за OutOfMemoryError

Я попытался передать DataFrame, который оказался больше spark.sql.autoBroadcastJoinThreshold, и...

shay__ / 25 декабря 2018

0 голосов

1 ответ

Как отфильтровать зашумленные данные по столбцу в проекте apache spark maven?

Я работаю над Apache Spark над проектом Java Maven. У меня есть комментарии подобного рода на этом...

ultrasGala / 25 декабря 2018

0 голосов

0 ответов

Преобразование агрегатных и оконных функций из Spark-Sql в Hive

Я конвертирую сценарий spark sql в скрипт hive.Но у меня возникли некоторые проблемы с...

Tanvir / 24 декабря 2018

0 голосов

1 ответ

Разбиение SQL-запросов для повышения эффективности Spark

У меня действительно большой SQL-запрос на HIVE, который нужно перенести для запуска. Можно ли...

Francis Drumm / 24 декабря 2018

0 голосов

0 ответов

Получение java.io.FileNotFoundException при сохранении фрейма данных в путь hdfs

Я использую Spark Streaming 1.6 для чтения сообщений из Tibco, и я выполняю некоторые...

Gaurav Gupta / 24 декабря 2018

0 голосов

1 ответ

java.lang.RuntimeException: Невозможно определить типы схемы из пустого результата, используйте loadDataFrame (схема: (String, String) *)

Я пытаюсь создать набор данных с использованием коннектора spark neo4j Ex: Dataset< Row >...

kcforstackoverflow / 24 декабря 2018

0 голосов

2 ответов

как обновить строку на основе другой строки с тем же идентификатором

В кадре данных Spark я хочу обновить значение строки на основе других строк с таким же...

iluvex / 24 декабря 2018

0 голосов

0 ответов

Apache Spark SQL (DataSet) конвертируется в DataFrame (для kmeans)

Я хочу перевести прочитанные данные из sql в формат DataFrame.Как я могу это сделать?...

tim software / 24 декабря 2018

0 голосов

1 ответ

Как оптимизировать потоковую агрегацию с сокетом источника данных?

Я использую Spark 2.4.0 с Scala 2.11 на 4 процессорных ядрах и 8 потоках. Я написал следующее...

Przemyslaw / 23 декабря 2018

0 голосов

5 ответов

Подстрока с разделителями Spark Scala

Я новичок в Spark и Scala и хочу задать вам вопрос: У меня есть поле города в моей базе данных...

salamanka44 / 23 декабря 2018

0 голосов

0 ответов

Обработка пропущенных данных при чтении из s3 в спарк

Я использую кодировщики для чтения данных из s3 в DF, но несколько полей, указанных в объекте...

Sumit Gulati / 23 декабря 2018

0 голосов

3 ответов

Spark DataFrames: объединение двух последовательных строк

У меня есть DataFrame со следующей структурой: | id | time | x | y | -----------------------------...

m2008m1033m / 23 декабря 2018

0 голосов

1 ответ

Как Apache Spark обрабатывает данные, которые не помещаются в память?

Я вернул искровую программу, чтобы найти количество записей из файла памяти 2 ГБ с объемом памяти 1...

Naresh / 22 декабря 2018

0 голосов

1 ответ

Сбой задачи - запись DF в таблицу

Я пытаюсь сохранить фрейм данных в таблицу Hive.Но этот процесс занимает слишком много времени, и,...

Borja / 21 декабря 2018

0 голосов

0 ответов

Как посчитать примерно отличную особенность?

Кто-нибудь может увидеть, что с этим не так:? from pyspark.sql.functions import countDistinct,...

Stanislav Jirak / 21 декабря 2018

0 голосов

1 ответ

Невозможно разобрать строку выражения SQL, созданную самой искрой

Я столкнулся со сценарием, в котором мне нужно преобразовать выражение spark в выражение sql, а...

Shamshad Alam / 21 декабря 2018

0 голосов

1 ответ

В чем разница между dataframe.show () и dataframe.take () в искре?Чтобы увеличить производительность, что нам нужно увеличить?

Я использую кадры данных для чтения данных из файлов паркета и создания временного представления и...

Maneesh Jodge / 21 декабря 2018

0 голосов

1 ответ

Искровой поток не выполняет иск SQL запрос

Я столкнулся с одной проблемой при выполнении spark sql поверх потоковой обработки spark. Я не...

BigD / 21 декабря 2018

0 голосов

2 ответов

Объединить дублирующиеся записи в одну запись в фрейме данных pyspark

У меня есть фрейм данных с дублирующимися строками, и я хотел бы объединить их в одну запись со...

Yuva / 21 декабря 2018

0 голосов

1 ответ

Как взорвать массив структур?

Я работаю с объектом JSON и хочу преобразовать object.hours в реляционную таблицу, основанную на...

Jason / 20 декабря 2018

0 голосов

1 ответ

Производный столбец в pySpark, используя два столбца и значение предыдущей строки

Я хотел бы создать столбец на моем фрейме данных spark с операциями над двумя столбцами. Я хочу...

Diego Hernández / 20 декабря 2018

0 голосов

2 ответов

Как запросить вложенный тип массива json-файла с помощью Spark?

Как я могу запросить вложенный тип массива, используя объединения, используя набор данных Spark? В...

Shashank V C / 20 декабря 2018

0 голосов

4 ответов

Spark SQLContext Query с заголовком

Я использую SQLContext для чтения в CSV-файле следующим образом: val csvContents = sqlContext.read

covfefe / 20 декабря 2018

0 голосов

1 ответ

Задание Spark работает при локальном запуске, но не работает в автономном режиме

У меня есть простой Spark-код, который отлично работает при локальном запуске, однако, когда я...

Alexsandro Souza / 20 декабря 2018

0 голосов

1 ответ

метод cast приводит к нулевым значениям в java spark

У меня есть простой пример использования объединения двух данных: я использую версию spark 1.6.3

humblecoder / 19 декабря 2018