Я пробую Спарк на Кубернетесе. Только что скачал Spark 2.4.3 на экземпляре EC2 в моем VPC. Я...
Я пытаюсь создать фрейм данных из файлов json, содержащих месячные сетевые сообщения и получающих...
У меня огромный набор данных с грязной структурированной схемой. Скажем, одни и те же поля данных...
Я пытаюсь написать вспомогательную функцию, которая получает набор данных любого типа Dataset[_] и...
Я немного новичок в разборе pyspark и json и застрял в каком-то определенном сценарии. Позвольте...
Я пытаюсь прочитать несколько файлов Excel, которые находятся в одном каталоге, но я столкнулся с...
Я хочу обработать ~ 500 ГБ данных , распределенных по 64 файлам JSON каждый, содержащий 5M записей
У меня есть датафрейм, в котором есть несколько столбцов с данными даты. Я хочу применить проверку...
Я хотел бы сначала извиниться, если это не правильный способ задать вопрос, но это мой первый. У...
Я пишу приложение для предварительной обработки, которое, помимо других преобразований и действий,...
Я новичок в Hive и хотел понять, что не так с этим запросом? df_tickets = hiveContext
Я пытаюсь запустить spark-submit для запуска задач pyspark с использованием пользовательских...
Scala API говорит, что register (..) принимает returnType. Но когда я делаю и компилирую, я получаю...
У меня есть датафрейм. Я хочу проверить условие между столбцами: +---+----+------+---------+------+...
Я пытаюсь выполнить команду HDFS изнутри скрипта scala, выполняемого Spark в режиме кластера.Ниже...
У меня следующая ошибка: File "script_2019-06-02-23-49-11.py", line 478, in...
Мой код читает данные из sqlcontext.Таблица содержит 20 миллионов записей.Я хочу рассчитать...
Мне нужно записать данные из фрейма данных Spark в HDFS в формате Avro. Проблема заключается в том,...
Я новичок в BigData, я пытался вызвать спарк с Apache Livy. С командной строкой submit работает...
У меня есть СДР, и я хочу найти различные значения для нескольких столбцов. Пример: Row(col1=a,...
У меня есть следующий входной файл, в котором могут быть плохие записи, я хочу создать исключение и...
Я вижу код из книги "Spark The Definition Guide", он вызывает падение на информационном фрейме без...
Я включаю Hive on Spark согласно документации Cloudera 1 и 2 . Теперь я обнаружил, что число...
Код всегда работал в ожидании, пока вчера диск кластера не сломался. Команда поддержки ИТ исправила...
У меня есть закодированный фрейм данных, и мне удалось расшифровать его, используя следующий код в...