Вопросы с тегом апач-искровой

0 голосов

1 ответ

Большой объем данных на ПК?

Здравствуйте, я хочу иметь дело с большим объемом данных в 1 миллиард строк и 23 столбца. Но в...

Miguel A. Friginal / 23 октября 2019

0 голосов

1 ответ

Невозможно загрузить учетные данные AWS от любого поставщика в цепочке - ошибка - при попытке загрузить модель из S3

У меня есть модель MLLib, сохраненная в папке на S3, скажем, bucket-name / test-model.Теперь у меня...

yguw / 28 сентября 2019

2 голосов

1 ответ

PySpark: раздвижные окна для выборочных строк

У меня есть кадр данных, содержащий следующие 3 столбца: 1. ID 2. метка времени 3. IP_Address...

Absurdist_VT / 26 сентября 2019

0 голосов

0 ответов

Spark.Sql не может прочитать японский (Mutltbyte Charater) из таблицы улья?

Я пишу японский символ в таблице улья как часть одной из моих программ.Позже, когда я выбираю это...

Dev2019 / 10 июля 2019

1 голос

2 ответов

Как повернуть карту и пройтись по ключам и значениям в Scala Spark

Я пишу скрипт Scala Spark, в котором я храню (разделы Hive) пути HDFS в качестве ключей, а их...

Ashwin Ajmera / 21 июня 2019

0 голосов

0 ответов

Как подключить среду разработки Spark к конечной точке AWS Glue

Я хочу создать среду разработки для запуска приложения Spark, написанного на Scala, для конечной...

datahack / 14 июня 2019

0 голосов

2 ответов

PySpark, как найти подходящее количество кластеров

Я строю локоть метод, чтобы найти подходящее число кластера KMean, когда я использую Python и...

Ali / 30 мая 2019

0 голосов

1 ответ

zeppelin_ipyspark.py в apache zeppelin получить SyntaxError: неверный синтаксис

когда я запускаю код с pyspark в Apache Zeppelin 0.8.1, я получаю сообщение об ошибке типа java

LSS / 26 мая 2019

1 голос

1 ответ

Hive - копирование схемы базы данных с разделами и воссоздание в другом экземпляре куста

Я скопировал данные и структуру папок для базы данных с разделенными таблицами кустов из одного...

John Humphreys - w00te / 15 мая 2019

0 голосов

0 ответов

Произошла ошибка при вызове o82.relationalize: scala.MatchError: choice (класса com.amazonaws.services.glue.schema.TypeCode)

Я пытаюсь загрузить XML-файлы из соединения S3 в задании AWS Glue ETL.Файлы загружаются «правильно»...

Zach / 14 мая 2019

1 голос

2 ответов

Как получить последнее значение с помощью dropDuplicates ()?

Допустим, у меня есть следующий искровой фрейм данных (df): Как видно, в «метке времени» есть...

M. Mate / 10 мая 2019

0 голосов

0 ответов

Несколько процессов с тензорным потоком выполняются в gpu и приводят к «неудачному запуску Blas GEMM» для прогнозирования модели в Apache Spark

Я обучил нейронную сеть, используя Keras, и я сохранил ее, используя save_model. Я хочу...

Adrian Negru / 12 апреля 2019

1 голос

0 ответов

Как выполнить Intellij Spark Code на кластере Databricks

Я пытаюсь запустить свой код Spark, который я написал в Intellij, и запустить его на Databricks,...

I.Chorfi / 28 марта 2019

0 голосов

0 ответов

AWS Glue: невозможно разобрать CSV gzip для паркета

Я пытаюсь использовать инструмент AWS Glue ETL для анализа файла CSV в Parquet. Я следую этому...

Giiovanna / 27 марта 2019

1 голос

1 ответ

Модульное тестирование, если файл существует в локальной файловой системе через Spark

Я могу успешно проверить приведенный ниже код в кластере EMR с помощью искры. Но я не могу написать...

Rohan Nayak / 27 марта 2019

0 голосов

0 ответов

Ошибка вспомогательной библиотеки тестового класса (ImportError: невозможно импортировать имя 'Test')

Я работал с обычным искровым приложением wordcount на Databricks.Чтобы использовать вспомогательную...

Anurag Kumar Pandey / 26 марта 2019

0 голосов

0 ответов

сервис spark или Aws, который можно добавить в существующий файл паркета

Я пытался добавить код Spark в существующий файл паркета, но приложение не работает.Вместо этого...

Suresh M N / 14 марта 2019

2 голосов

1 ответ

EMR 5.21, Spark 2.4 - зависимость Json4s нарушена

Выпуск В EMR 5.21 интеграция Spark - Hbase не работает. df.write.options (). Format (). Save ()...

Raj Kumar Rai / 08 марта 2019

0 голосов

1 ответ

Если есть способ получить информацию во время выполнения о конфигурации SparkMetrics

Я добавляю файл metrics.properties в каталог ресурсов (проект maven) с CSV sinc.Все нормально,...

jk1 / 01 марта 2019

0 голосов

0 ответов

Как расшифровать записи Kinesis с помощью ключа KMS?

Я пишу Kinesis Consumer, который читает и расшифровывает приведенные ниже сообщения. Это мой...

Manoj Kumar Dhakd / 15 февраля 2019

0 голосов

2 ответов

Как получить определение схемы из фрейма данных в PySpark?

В PySpark вы можете определить схему и прочитать источники данных с помощью этой предварительно...

Hauke Mallow / 03 февраля 2019

0 голосов

1 ответ

Apache Spark читает несколько текстовых файлов за один прогон

Я могу успешно загрузить текстовый файл в DataFrame с помощью следующего кода Apache Spark Scala:...

alexanoid / 30 января 2019

0 голосов

1 ответ

Каков наилучший способ обновить эти справочные данные, используемые в приложении Spark?

У меня есть искровое приложение, которое использует не так часто меняющиеся справочные данные. эти...

anuchadal / 14 января 2019

0 голосов

0 ответов

Можно ли установить весы для признаков при классификации с использованием наивного байесовского метода в Spark?

В моем приложении Spark я использую NaiveBayesModel для классификации текстовых документов....

Wojciech Wirzbicki / 10 января 2019

0 голосов

0 ответов

Кластер EKS не может получить доступ к файлам s3a при использовании spark-submit.Как это решить?

Я пытаюсь запустить искровое задание в кластере EKS, заставляя его создать 5 рабочих узлов для...

Kalyan Ranjan Parajuli / 14 декабря 2018