Я хочу объединить набор данных (идентификатор, оценка, поле1, поле2, поле3) по идентификатору и...
Я пытаюсь построить конвейер etl, используя pyspark и kafka.Мне нужно сохранить потоки для будущих...
У меня есть сжатый файл JSON, который содержит массив JSON, что-то вроде этого:...
У меня есть требование для создания XML, который имеет структуру ниже <parent>...
Я попытался сравнить cassandra save для таблицы с 30 000 записей для RDD и DataSet.Я обнаружил, что...
Я хочу перебрать RDD в Spark Repl, но, похоже, он не работает case class Person(age: Long, name:...
Я пытаюсь подключить Spark Streaming к Kafka в простом приложении. Я создал это приложение на...
Как мы можем перезаписать многораздельный набор данных, но только те разделы, которые мы собираемся...
Как лучше всего обрезать таблицу куду от спарк? Есть ли какой-нибудь аналог SQL "TRUNCATE...
Тест, использующий spark-sql, не выполнен из-за следующей ошибки: Коррелированные скалярные...
Я пытаюсь выполнить простую случайную выборку с помощью Scala из существующей таблицы, содержащей...
Я просматривал некоторый код, написанный коллегой, и нашел метод, подобный этому: def writeFile(df:...
У меня есть следующий код: val conf = new SparkConf() .setAppName("KafkaReceiver")
Я использую Hive с Spark 1.6.3 У меня большой набор данных (40000 строк, 20 столбцов или около того...
Я пытаюсь понять концепции Spark SQL и мне интересно, могу ли я использовать Spark SQL в качестве...
Я заметил странное поведение моего компилятора scala. Иногда он генерирует OutOfMemoryError при...