У меня есть данные, которые постоянно передаются в корзину S3. Я хочу настроить приложение...
Я пытаюсь подключиться к Kafka с помощью потоковой структурированной искры. Это работает:...
У меня есть текстовый файл в HDFS, который содержит около 10 миллионов записей. Я пытаюсь прочитать...
Я хотел бы понять, как лучше всего выполнить агрегацию в Spark в этом сценарии: import sqlContext
У меня есть датафрейм, импортированный из CSV с двумя столбцами (среди прочих): дата и время.Date -...
У меня есть итератор, который работает с последовательностью документов WARC и выдает измененные...
Мы получаем почасовые данные JSON в HDFS.Размер данных будет примерно 5-6 ГБ в час. , когда...
У меня есть фрейм данных, созданный из чтения таблицы RDBMS, как показано ниже: val dataDF = spark
Я пытаюсь выяснить, как лучше всего работать с Airflow и Spark / Hadoop.У меня уже есть кластер...
Я установил Scala. Я установил Java 8. Также все переменные окружения были установлены для spark,...
Я загружаю некоторые таблицы ORC из S3, но я полагаю, что я сталкиваюсь с некоторыми проблемами с...
DataFrame 1 - это то, что у меня есть сейчас, и я хочу написать функцию Scala, чтобы DataFrame 1...
Мне нужно вставить строку в таблицу SQL из Spark, запущенного в Azure Databricks, и узнать, есть ли...
Контекст У меня есть две таблицы, к которым я присоединяюсь / объединяюсь как часть моих искровых...
Я пытаюсь запустить автономный кластер Spark. На моем главном узле я запустил: ./sbin/start-master
import org.apache.spark._ import org.apache.spark.rdd._ import org.apache.spark.storage.StorageLevel
Я пытаюсь использовать функцию Spark StringIndexer для столбца, содержащего около 15 000 000...
У меня есть одна таблица с большим количеством типов данных, и у некоторых данных есть одна...
Можно ли как-нибудь оценить выражение Column, если я использую только Literal (без столбцов данных)
Я получаю данные от кафки в виде {"email":"test@example"...
Я написал метод для фильтрации дубликатов из RDD и решил написать модульный тест для метода. Вот...
Я сопоставляю SpD RDD с очень дорогой функцией (потенциально десятки секунд на строку). Возможно,...
У меня есть список дат, которые я хочу преобразовать в набор искровых данных, чтобы использовать их...
когда я собираю толстую банку с помощью пружинной загрузки, ее имя sparker4m-0.0.1.jar И я "подаю...
Я обновил нашу систему HDP (Hortonworks Data Platform) с 2.5.2 до новейших версий (2.6.5). Все...