Вопросы с тегом apache-искровые

0 голосов

0 ответов

Ошибка OOM при сборе данных для локальных преобразований

x = sqlContext.sql("select * from db.table LIMIT 1000000") x = x

test acc / 30 октября 2018

0 голосов

0 ответов

Блоки данных: чтение информации каталога S3 в Python

Я пытаюсь прочитать информацию о файлах и каталогах S3 в Python.Я могу найти файлы, используя...

con / 25 октября 2018

0 голосов

1 ответ

Расположение задания Spark в кластере kubernetes - ошибки такого файла нет

Я пытаюсь отправить приложение Spark в кластер Kubernetes, файл задания находится по адресу: / opt...

Lakshman Battini / 22 октября 2018

0 голосов

0 ответов

Подключение к Hive Metastore (с проверкой подлинности Kerberos) с помощью Pyspark в Windows

Я пытаюсь подключиться к базе данных Hive с проверкой подлинности Kerberos с помощью Pyspark в...

user3238848 / 21 октября 2018

0 голосов

0 ответов

Распараллеливание преобразования h5 в паркет

У меня есть набор из 1500 .H5 файлов, которые я должен обработать и преобразовать в паркет.До сих...

ThallysHoelz / 10 октября 2018

0 голосов

1 ответ

Невозможно создать Dataframe в PySpark

Я хочу создать Dataframe в PySpark со следующим кодом from pyspark.sql import * from pyspark.sql

STORM / 01 октября 2018

0 голосов

0 ответов

Чтение в Spark-сериализованном SparseVector в NumPy

У меня есть работа Spark, которая записывает, что потенциально может быть очень большим набором...

Evan Zamir / 18 сентября 2018

0 голосов

1 ответ

Как убить работу в Databricks

У меня долговременная работа, и если будут выполнены определенные условия, я бы хотел ее убить. Это...

con / 04 сентября 2018

0 голосов

0 ответов

TypeError при попытке выполнить агрегатную функцию

Я пробовал агрегатную функцию, которая преподавалась в видео лекции. Я столкнулся с ошибкой при ее...

Hariprasath Thiagarajan / 01 июля 2018

0 голосов

1 ответ

Объединение каждой пары значений в кортежи в PySpark

У меня есть json, который выглядит следующим образом: { "cols": [ "id",...

Matt / 24 июня 2018

0 голосов

1 ответ

Хранение паркета для Kerberos обеспеченных Webhdfs от Spark

Я пишу на путь webhdfs, защищенный Kerberos от Spark.И часть этого на самом деле работает, но он...

Tom Lous / 11 июня 2018

0 голосов

2 ответов

Прочитайте файл SAS, чтобы получить метаинформацию

Очень новые технологии в науке о данных.В настоящее время работаем над чтением файла SAS (

K.Pil / 31 мая 2018

0 голосов

0 ответов

Исключение в потоке "main" java.lang.IllegalArgumentException: тип данных StringType оценки столбца не поддерживается

Я не могу реализовать kmeans для столбца "score" моего набора данных, загруженного из...

sabrine / 30 мая 2018

0 голосов

1 ответ

Spark 2.3 утечка памяти на исполнителя

Я получаю предупреждение об утечке памяти, которое в идеале было ошибкой Spark до версии 1.6 и было...

Aakash Basu / 25 мая 2018

0 голосов

0 ответов

Доступ Kerberos Cross Realm HDFS через приложение Spark

Мы пытаемся выполнить передачу данных между двумя кластерами, для которых включена межрегиональная...

Pramod GM / 24 мая 2018

0 голосов

1 ответ

PySpark: доступ к векторным элементам в sql

У меня есть искровой фрейм данных, в котором есть столбец с именем features, в котором хранятся...

Clock Slave / 15 мая 2018

0 голосов

2 ответов

Нет модуля с именем graphframes Jupyter Notebook

Я следую этому руководству по установке, но у меня возникла следующая проблема с использованием...

Daniel Chepenko / 11 мая 2018

0 голосов

2 ответов

Ошибка пакета Maven

Я работаю над проектом, который требует зависимости geotools . Прежде чем я получил следующую...

user3597555 / 30 апреля 2018