Вопросы с тегом pyspark

0 голосов

2 ответов

PySpark: получить значения Threshold (cuttoff) для каждой точки кривой ROC

Я начинаю с PySpark, строю бинарные классификационные модели (логистическая регрессия), и мне нужно...

Barranka / 29 января 2019

0 голосов

1 ответ

Составной фильтр Pyspark, несколько условий

Совершенно новый для Pyspark, и я реорганизую некоторый код R, который начинает терять свою...

DataDog / 29 января 2019

0 голосов

1 ответ

Как создать потоки Python в коде Pyspark

У меня около 70 запросов к ульям, которые я последовательно выполняю в pyspark.Я ищу способы...

Ananth Gopinath / 29 января 2019

0 голосов

1 ответ

Чтение файла JSON из BLOB-объекта как словарь

У меня есть файл JSON, который я сохранил в BLOB-объекте.Я хочу прочитать этот файл как словарь.Для...

Visualisation App / 29 января 2019

0 голосов

1 ответ

Нет start-history-server.sh когда pyspark установлен через conda

Я установил pyspark в среде миниконды на Ubuntu через conda install pyspark.Пока все работает...

oulenz / 29 января 2019

0 голосов

1 ответ

Pyspark - повторное использование соединения JDBC

У меня есть следующая задача: загрузка данных из одной таблицы из нескольких схем использование...

Juraj / 29 января 2019

0 голосов

1 ответ

AWS Glue не удается написать паркет, не хватает памяти

Я думаю, что AWS Glue не хватает памяти после сбоя записи выходных данных паркета ... Произошла...

Jiew Meng / 29 января 2019

0 голосов

0 ответов

pyspark arrays_zip исключить индекс

Я использую новую функцию pyspark arrays_zip в v2.4, чтобы сжать следующие массивы:...

Aydus-Matthew / 29 января 2019

0 голосов

1 ответ

Как я могу легко использовать свои собственные методы класса среди операций pyspark?

У меня есть класс Age, файл csv и сеанс времени выполнения pyspark ages.csv Name;Age...

ttbsttsoo / 29 января 2019

0 голосов

1 ответ

PySpark: вычесть две метки времени и вернуть разницу в минутах (использование F.datediff возвращает только целые дни)

У меня есть следующий пример данных.Столбцы date_1 и date_2 имеют тип данных отметки времени. ID...

PineNuts0 / 29 января 2019

0 голосов

1 ответ

PySpark для блоков данных: чтение файла CSV, скопированного из хранилища BLOB-объектов Azure, приводит к исключению java.io.FileNotFoundException

Я использую Azure Databricks 4.3 (включая Apache Spark 2.3.1, Scala 2.11). Я скопировал CSV файл из...

Krzysztof Słowiński / 28 января 2019

0 голосов

1 ответ

org.apache.spark.sql.AnalysisException: не удается разрешить

Случай 1: Когда я пытаюсь получить «b.no» с сообщением об ошибке, ниже сообщается код, а также...

RK. / 28 января 2019

0 голосов

1 ответ

рассчитать медианные значения с четным количеством строк в pyspark

Я использую эту формулу, взятую из другого поста SO, для вычисления средних значений столбцов в...

Francesco Boi / 28 января 2019

0 голосов

1 ответ

Как изменить все столбцы на двойной тип в кадре данных искры

Я пытаюсь изменить все столбцы искрового фрейма данных на двойной тип, но я хочу знать, есть ли...

GDK / 28 января 2019

0 голосов

0 ответов

Pyspark: java.lang.OutOfMemoryError: пространство кучи Java при сохранении кадра данных в parquet / csv

Я использую pyspark 2.3 на ноутбуке Jupyter на ПК Lenovo (Windows 10 и Ram 48 G), я пытался...

Sidhom / 28 января 2019

0 голосов

1 ответ

Как работать с пустой таблицей из каталога данных Glue в pyspark

Я бы хотел выполнить SparkSQL на SageMaker с помощью AWS Glue, но пока не получилось. Я хочу...

tsuda7 / 28 января 2019

0 голосов

0 ответов

AWS склеивает медленно, даже когда в запросе есть предложение LIMIT / WHERE / Sample

Мне интересно, почему мое задание Glue выполняется так медленно, даже если у запроса есть...

Jiew Meng / 28 января 2019

0 голосов

1 ответ

Pyspark имеет разные версии в драйвере (python3.5) и работнике (python2.7)

Я использую как hdfs, так и обычный пользовательский режим. По умолчанию локальная версия Python -...

Shilpa / 28 января 2019

0 голосов

1 ответ

Как я могу поддерживать временный словарь в приложении pyspark?

Я хочу использовать предварительно встроенную модель встраивания (fasttext) в приложении pyspark....

bib / 28 января 2019

0 голосов

0 ответов

Как узнать соседние вершины конкретной вершины в графе (pyspark)?

Я пытаюсь найти соседние вершины конкретной вершины, используя API графического фрейма, доступный в...

Redwan Khan / 27 января 2019

0 голосов

0 ответов

Функция Spark Show показывает данные правильно, но запись всегда выдает ошибку

Итак, вот мой искровой код на python, который я выполняю с запущенным в фоновом режиме hadoop: from...

Pedro González / 27 января 2019

0 голосов

1 ответ

Как отсортировать идентификаторы типа А1, А2, А10 в pyspark?

Как мне отсортировать идентификаторы как A1, A2, A10, B1 и т. Д. В pyspark? Я хотел бы иметь...

Kasaram Bala / 27 января 2019

0 голосов

2 ответов

Spark: как удалить ненужные символы в значениях столбца df

У меня df вот так, +----+---+ | _c0|_c1| +----+---+ |('a'| 2)| |('b'| 4)|...

Pradeep Sonaimuthu / 27 января 2019

0 голосов

0 ответов

Разбор огромных дампов XML-Википедии с помощью PySpark

Я пытаюсь проанализировать дампы истории Википедии из XML в PySpark Dataframe. Когда я анализирую...

Благојче Митревски / 26 января 2019

0 голосов

1 ответ

PySpark возвращает исключение, когда я пытаюсь преобразовать строковые столбцы в числовые

Я пытаюсь преобразовать строковые столбцы в числовые, но получаю исключение в PySpark.Ниже приведен...

user8270077 / 26 января 2019