Вопросы с тегом апаш-искровой

0 голосов

0 ответов

приложение Spark Split до 4 рабочих мест

из того, что я понимаю, запускается разделение заданий с помощью операций Action и разделение...

sparrow tian / 03 октября 2019

0 голосов

1 ответ

Как загрузить разные файлы в разные таблицы, основываясь на шаблоне файла?

Я запускаю простой скрипт PySpark, как этот. base_path = '/mnt/rawdata/' file_names =...

asher / 01 октября 2019

0 голосов

1 ответ

Как определить строки кода pyspark, участвующего в неудачной стадии?

У меня сбой этапа выполнения из-за ошибки нехватки памяти. Как определить строки исходного кода...

admas1413 / 01 октября 2019

0 голосов

0 ответов

Как сравнить два Spark Dataframes?

Я пытаюсь сравнить два фрейма данных с Pyspark, но я получил разные результаты для тех же фреймов...

Eric Bellet / 01 октября 2019

0 голосов

1 ответ

преобразовать строки и столбцы без использования панд

У меня есть датафрейм только с двумя столбцами. Я пытаюсь преобразовать значения одного столбца в...

ankush reddy / 30 сентября 2019

0 голосов

0 ответов

Spark не может перераспределиться после Window.partitionBy

У меня есть фрейм данных df, который включает в себя два столбца: GROUP_ID - их всего 3: 1, 2, 3...

jazzblue / 28 сентября 2019

0 голосов

1 ответ

если еще в спринге передать условие, чтобы найти значение из CSV-файла

Я хочу прочитать CSV-файл в dfTRUEcsv Как получить значение (03,05) и 11 в виде строки в...

Raj / 27 сентября 2019

0 голосов

0 ответов

PicklingError в Pyspark

Я написал ниже функцию в pyspark, чтобы получить deptid и вернуть фрейм данных, который я хочу...

Ravi / 26 сентября 2019

0 голосов

1 ответ

AttributeError: объект 'NoneType' не имеет атрибута 'запись в Pyspark

Spark: 2.4.4 Pyspark Я зарегистрировал временную таблицу и пытаюсь сохранить вывод в файл CSV.но...

Sophie Dinka / 26 сентября 2019

0 голосов

0 ответов

Ошибка Spark toPandas () в кластере

Работает Spark кластер 256 ГБ памяти (DRIVER), 32 ядра с одинаковыми рабочими. 5.5 Среда Conda Beta...

wsh / 25 сентября 2019

0 голосов

0 ответов

Spark 2.4.3 - Что делать, если схема таблицы базы данных имеет числовой тип?

Мне нужно загрузить данные из таблицы базы данных (Teradata) с помощью spark, но схема таблицы...

Carlos Henrique / 24 сентября 2019

1 голос

0 ответов

Pyspark Shuffle Написать размер

Я читаю данные из двух источников на этапах 2 и 3. Как вы можете видеть, на этапе 2 размер входного...

Y.Su / 24 сентября 2019

1 голос

2 ответов

Ошибка ParseException при использовании Regex в pyspark 2.4

Я пытаюсь получить только те строки, в которых colADD содержит не буквенно-цифровой символ. Код:...

Sophie Dinka / 24 сентября 2019

0 голосов

1 ответ

Дублирующиеся записи перемещаются в другую временную таблицу в pyspark

Я использую Pyspark Мои входные данные выглядят следующим образом. COL1|COL2 |TYCO|130003| |EMC...

Sophie Dinka / 23 сентября 2019

0 голосов

1 ответ

pyspark - параллельный запуск SQL-запроса spark для нескольких идентификаторов в списке

У меня есть список, скажем, ids = ['K50', 'K51', 'K51',...

Aasim Khan / 23 сентября 2019

0 голосов

0 ответов

Как я могу оптимизировать код, просто прочитав таблицы один раз в следующем коде PySpark?

У меня есть фрейм данных PySpark (D1) с 30+ миллионами строк, который выглядит следующим образом:...

yguw / 23 сентября 2019

1 голос

2 ответов

Создание пользовательской (не временной) функции в Spark-SQL для блоков данных Azure

Может быть, это глупо, я являюсь разработчиком Microsoft SQL / C # и никогда раньше не использовал...

hmayer1980 / 10 июля 2019

0 голосов

1 ответ

Загружать файлы CSV - невозможно передать пути к файлам из фрейма данных

Ниже код отлично работает: val Path = Seq ( "dbfs:/mnt/testdata/2019/02/Calls2019-02-03

Vaibhav Chaudhari / 26 июня 2019

1 голос

0 ответов

Выполнять задания записной книжки Databricks через API в общем контексте

В документации REST для блоков данных вы можете отправить задачу блокнота в качестве задания в...

user1371314 / 24 июня 2019

1 голос

1 ответ

Не удается подключиться к Azure Data Lake Gen2 с помощью PySpark и Databricks Connect

Недавно Databricks запустил Databricks Connect, что позволяет писать задания с использованием...

flappy / 21 июня 2019

0 голосов

1 ответ

Как сделать DataFrame видимым в ячейке Python в записной книжке Databricks?

Я создал Spark DataFrame в Scala, используя Databricks.После некоторой предварительной обработки я...

Fluxy / 21 июня 2019

0 голосов

0 ответов

Повышение производительности объединения и нечеткого анализа в PySpark или Delta Table с использованием блоков данных

Я работаю с 7 различными фреймами данных, где 3 взяты из CSV-файлов, хранящихся в хранилищах...

Lucas Mascia / 13 июня 2019

1 голос

0 ответов

Как проверить, является ли nodeseq дочерним / конечным узлом в XML?

У меня есть XML, который я анализирую с помощью xPaths и самодельного парсера.xPaths только для...

Pankaj Mishra / 10 июня 2019

0 голосов

0 ответов

Как исправить исключение тайм-аута чтения в разъеме свечи Cassandra

Я использую spark 2.4 и scala 2.11 в платформе Azure Databricks, DSE 6.0.7 и версии 2.4.0...

Chandra / 30 мая 2019

1 голос

0 ответов

Spark Scala - параллельная массовая обработка различных дочерних фреймов данных

Я работаю над проектом по обнаружению мошеннических транзакций, который использует искру и в...

kartik / 30 мая 2019