В настоящее время я работаю над Jupyter (Lab) и PySpark 2.1.1. Я хочу поменять spark.yarn.queue и...
Я хочу, чтобы значение пересечения 2 данных (столбцов) совпадало с unique_ID, и сохраняло значение...
Когда мы попытались прочитать kafka формата avro через тему kafka, при использовании...
Я следовал этим инструкциям и установил Apache Spark (PySpark) 2.3.1 на мою машину со...
Я пытаюсь запустить следующую потоковую передачу PySpark-Kafka пример в блокноте Jupyter. Вот...
Я обучил модель с использованием PySpark и хотел бы сравнить ее производительность с существующей...
Я новичок в установке spark на компьютере с Linux и, возможно, у меня есть основной вопрос: я...
Я настроил Python для выполнения ETL-программирования с использованием конечной точки разработчика...
что я хотел сделать, это прочитать данные из CSV-файла и отправить их на сервер, вот что я пишу, но...
На стороне сервера я настроил простой tcp-сервер, например: import socket from time import sleep...
У меня есть файл test.py import pandas as pd import numpy as np import tensorflow as tf from...
Мы используем метод ALS (Alternating Least Squares) в нашей облачной искровой среде Google, чтобы...
Кто-нибудь знает способ добавить исходное имя файла в виде столбца в задании Glue? Мы создали поток...
Подключение к свече через Ливий прекрасно работает в Jupyter, как и следующая магия искры: %%spark...
Я пытаюсь написать Кафке, используя PySpark. Я застрял на нулевой стадии: [Stage 0:> (0 + 8) /...
Я использую AWS Glue для извлечения данных из EC2 (Postgre) для преобразования и помещаю их в S3,...
Я хочу кэшировать некоторые данные (ndarrays) локально на рабочих узлах, чтобы провести некоторое...
У меня есть список списков с токенами, такими как: mylist = [['hello'], ['cat']...
Я создаю кластер с Google Cloud Dataproc. Я могу просто отправить работу в кластер, пока не выполню...