Когда я запустил код PySpark, созданный с помощью Jupyter Notebook веб-интерфейсов кластера...
Я в основном пытаюсь запустить свою первую подпрограмму Hadoop MapReduce, и я должен использовать...
Я хочу получить более подробную информацию о том, предназначены ли эти свойства для всего кластера...
В частности, как добавить соединитель spark-bigquery, чтобы я мог запрашивать данные из...
Я использую Dataproc для запуска скрипта Pyspark, который записывает фрейм данных в текстовые файлы...
Я пытаюсь запустить рабочие задания в управляемом кластере DataProc. У меня есть несколько...
Передо мной стоит следующая задача: у меня есть отдельные файлы (например, Мб), хранящиеся в Google...
Я обрабатываю данные с помощью Spark, работающего в кластере Dataproc. Я пытался сделать кластер...
Я пытаюсь загрузить данные из Google BigQuery в Spark, работающий на Google Dataproc (я использую...
Я новичок в Apache Airflow Usage, в настоящее время использую Airflow1.10.4 с поддержкой Python 2.7
У меня есть приложение, которое обрабатывает 8 кадров данных в параллельной итерации. Работа...
Используя GCP, я создаю рабочие процессы для своей обработки. Я хочу активировать ведение журнала...
Я использую модель логистической регрессии в наборе данных с более чем 2000 столбцами в Dataproc...
Я пытаюсь создать кластер dataproc через Python API, я использую аутентификацию с json fle,...
Я пытался решить эту проблему слишком много раз и до сих пор не могу решить ее, кажется, что...
Я пишу yaml для создания экземпляра кластера DataProc из файла YAML. Я хочу добавить lzo сжатие в...
Я пытаюсь определить функцию создания кластера для создания кластера в Cloud Dataproc. Просматривая...
Я пытаюсь запустить pyspark в облаке Google / dataproc. Я могу отправить свою работу в кластер и...
Я хочу получить количество рабочих и рабочую конфигурацию кластера dataproc, используя его имя...
Я пытаюсь развернуть свой код в cloud-dataproc. Мое приложение состоит из двух модулей: moduleA.py...
Предположим, что я запускаю задание pyspark, используя шаблон рабочего процесса dataproc и...
Я хочу запустить сценарий оболочки на Dataproc, который будет выполнять мои сценарии Pig с...
Я отправляю задания на искровой кластер в Dataproc (с помощью Hadoop Yarn). и я вижу, что...
Я пытаюсь прочитать файл avro с помощью DataFrame, но продолжаю получать: org.apache.spark.sql.avro
Я пытаюсь запустить задание PySpark через jupyter, и мне нужно создать функцию для запуска задания....