Вопросы с тегом pyspark

0 голосов

1 ответ

Ничего не найдено в _spark_metadata

Я пытаюсь прочитать CSV-файлы из определенной папки и записать то же содержимое в другой CSV-файл в...

Khan Hafizur Rahman / 09 июня 2018

0 голосов

0 ответов

Как вычислить систему собственных векторов матрицы с помощью Apache PySpark 2.3

Я должен вычислить собственное значение наименьшей величины и связанный с ним собственный вектор...

Gennaro / 09 июня 2018

0 голосов

1 ответ

Pyspark - выбор отличительных значений в столбце после groupby и orderBy

поэтому моя таблица выглядит следующим образом:...

Pedro Pinheiro / 09 июня 2018

0 голосов

1 ответ

PySpark WARN сообщения

Как отключить следующие сообщения WARN при запуске кода PySpark: Setting default log level to...

kirylm / 09 июня 2018

0 голосов

1 ответ

UnsupportedOperationException: Unimplemented Тип: DoubleType

Я пытаюсь записать pyspark df в Snowflake, используя функцию, которую я написал: def...

elrazia / 08 июня 2018

0 голосов

1 ответ

Pyspark удаляет несколько символов в столбце данных

Глядя на pyspark, я вижу translate и regexp_replace, чтобы помочь мне одним символом, который...

E B / 08 июня 2018

0 голосов

1 ответ

Spark: рассчитывает на окно, не работающее в течение миллисекунды

Вы можете создать окно для подсчета количества повторений записи за последние 7 дней.Однако, если...

Micah Pearce / 08 июня 2018

0 голосов

1 ответ

pyspark наиболее эффективное сопоставление даты и времени

У меня есть фрейм данных PySpark (2.3.0) со столбцом типа отметки времени: >> df.show()...

Nolan Conaway / 08 июня 2018

0 голосов

3 ответов

Не удалось сохранить искру в эластичный поиск из-за ошибки подключения

Я пытаюсь проиндексировать данные вasticsearch о 77M документах с 150 полями.У нас мало...

aouakki / 08 июня 2018

0 голосов

1 ответ

Кэширование Spark Dataframe для повышения скорости

У меня есть функция, которая соединяет список фреймов данных с базовым фреймом данных и возвращает...

Clock Slave / 08 июня 2018

0 голосов

1 ответ

Как правильно прочитать файл .csv в S3 из Spark?- Не удается прочитать нижний колонтитул для файла

Мы пытаемся прочитать файл .csv в S3, используя Spark, но получаем эту ошибку: py4j.protocol

Eugene Goldberg / 08 июня 2018

0 голосов

1 ответ

Spark кластер на EC2 использует только один узел

Я использую flintrock для запуска кластера Spark с 8 + 1 узлами на Amazon EC2. > flintrock...

clstaudt / 08 июня 2018

0 голосов

1 ответ

Как заставить определенное разбиение в PySpark DataFrame?

Предположим, у меня есть DataFrame со столбцом partition_id: n_partitions = 2 df = spark

abeboparebop / 08 июня 2018

0 голосов

0 ответов

Ошибка искровой нити (код 13)

Я пытаюсь запустить программу в кластере, используя YARN. YARN присутствует там вместе с HADOOP....

Aakash Basu / 08 июня 2018

0 голосов

0 ответов

как зарегистрировать функцию python в классе как udf из sparksql

Вот моя проблема: У меня есть класс с некоторыми функциями для обработки nlp, а также я должен...

Junwen Xie / 08 июня 2018

0 голосов

1 ответ

DF.topandas () выдает ошибку в pyspark

Я запускаю огромный текстовый файл, используя PyCharm и PySpark. Вот что я пытаюсь сделать:...

M PAUL / 08 июня 2018

0 голосов

2 ответов

pyspark потоковое DStreams в тему кафки

Как это просто, возможно ли Stream Dtream в тему Kafka? У меня есть потоковое задание Spark,...

Gagan / 08 июня 2018

0 голосов

0 ответов

Ошибка PySpark NaiveBayesModel.predict

Хочу оценить наивную байесовскую модель для классификации.Я могу создать и обучить свою модель, но...

ProgShiled / 08 июня 2018

0 голосов

0 ответов

Ошибка файловой системы Hadoop FS - copyToLocal ([класс org.apache.hadoop.fs.Path, класс org.apache.hadoop.fs.Path]) не существует

В сеансе PysPark я хочу скопировать файл из S3 в локальный каталог Hadoop Cluster, при этом...

sandy / 08 июня 2018

0 голосов

1 ответ

подать искру извне кластера AWS EMR

У меня работает искра кластера AWS EMR, и я хотел бы отправить ему задание PySpark со своего...

mm_857 / 08 июня 2018

0 голосов

2 ответов

PySpark Boolean Pivot

У меня есть некоторые данные, имитирующие следующую структуру: rdd = sc.parallelize( [ (0,1), (0,5)...

dandroid / 07 июня 2018

0 голосов

1 ответ

Какие банки необходимы для загрузки наборов данных из S3?

Мы экспериментируем с загрузкой данных из Amazon S3 в кластер Spark 2.3, который настроен под...

Eugene Goldberg / 07 июня 2018

0 голосов

1 ответ

проблема с памятью искрового драйвера на конвейере ML

я запускаю конвейер логистической регрессии и на этой строке: model = pipeline.fit(train_data) я...

sparkly / 07 июня 2018

0 голосов

1 ответ

PySpark: перевод кода MSSQL с внутренними объединениями, заявлениями о делах и операторами где

Я пытаюсь скопировать код, написанный на MSSQL, и перевести его на PySpark.Я нуб в PySpark. Запрос...

PineNuts0 / 07 июня 2018

0 голосов

2 ответов

чтение текстового файла из Amazon S3 с помощью PySpark

Я пытаюсь получить кластер Spark для чтения источников данных из облачного хранилища Amazon S3.Это...

clstaudt / 07 июня 2018