Я работаю над проблемой классификации текста в python с использованием sklearn .Я создал модель и...
Я проводил некоторые тесты с Pyspark и наткнулся на странную вещь - исполнители Spark, кажется,...
Я пытаюсь определить схему при загрузке файла csv в мой SQLContext с использованием SparkSession
У меня 6 столов в улье.Я объединяю эти таблицы с предстоящими данными потока Кафки, используя...
При открытии и проекте IntelliJ Idea как Maven. Когда я import scala.io.Source, проблем нет. Однако...
Вот код, который я пытаюсь выполнить: SimpleApp.scala package test import java.sql.DriverManager...
У меня есть следующая таблица Cassandra: CREATE TABLE myflights.flights_by_airport2 ( origin text,...
У меня есть некоторые данные, по которым я хочу изучить «нормальное» поведение. Используя...
У меня следующий проект в IntelliJ, проблема в том, что Subscribe внутри KafkaUtils
Я пытаюсь запустить задание Spark 2 с моего компьютера, подключенного к удаленному кластеру. Если я...
Я работаю над сценарием использования, когда мне нужно постоянно собирать и обрабатывать информацию...
У меня есть диктория в python {'609232972': 4, '975151075': 4,...
Я хочу использовать метод when() в org.apache.spark.sql.Column, когда я иду вперед, получается, что...
Совсем недавно я начал работать с большими данными, и я хочу узнать больше о Spark и Scala, чтобы...
Я пишу несколько кодов, которые должны работать (как jar) на платформах flink и spark.Однако эти...
Чтобы подвести итог, я пытаюсь запустить тест TPCDS для Spark с оптимизатором катализатора Spark и...
Можно ли одновременно отправлять и запускать задания Spark в одном кластере AWS EMR? Если да, то не...
Я пишу проект Scala, в котором я хочу, чтобы классы, выполняемые из spark-submit, были представлены...
Среда разработки и производственная среда часто различаются по емкости (т. Е. Dev кластер сильно...
В моем текущем искровом приложении я указываю контрольные точки на hdfs, а URI hdfs - как показано...
Я пытаюсь обучить алгоритм ALS на Spark-Submit, сохраняя модель на HDFS и ее прогнозы на Cassandra...
Я занимаюсь разработкой приложения, в котором я читаю файл из hadoop, обрабатываю и сохраняю данные...
У меня есть производственная DynamoDB с около 20 ГБ данных. Мне нужно перенести эти данные в...
Я хочу выполнить скрипт Scala, используя HDInsight. Ниже в статье описывается запуск скрипта py, но...
У меня есть приложение Spark, которое очищает и подготавливает набор данных, а затем применяет...