Можно ли запросить файл TSV напрямую, используя Spark SQL?Чтобы было ясно, я говорю о Spark SQL, а...
Я пытаюсь создать конвейер данных с использованием spark и scala в Maven Project. Данные поступают...
У меня есть набор данных (~ 100 ГБ) в S3, который имеет метку времени, за которой следует строка...
Я использую Spark для записи данных в Alluxio с UFS в качестве S3 с использованием секционированной...
Мне нужно импортировать файл CSV, который содержит несколько полей, позже я должен выполнить цикл...
У меня есть датафрейм с начальным статусом с именем init.У меня есть датафрейм с той же схемой, где...
Для каждой строки в приведенном ниже кадре данных я хочу найти имена столбцов (в виде массива,...
Я выполняю искровые работы в режиме пряжи. Я использую spark-submit для запуска заданий внутри...
Этот код агрегирует между новым CSV-файлом и существующими данными MongoDB.Как существующие, так и...
Я объявил объект Sparksession в классе scala. Выдает ошибку "не найдено: значение SparkSession" ...
У меня есть список наборов данных, которые я хочу разделить по определенному ключу, который...
Я читаю XML-файл в Scala <tag1> <tag2 id="0" attr1="abc" ... /> .....
Мне нужно получить схему из CSV-файла (имя столбца и тип данных). Я достиг этого уровня - l =...
получая эту ошибку, у кого-нибудь есть идея, что ее вызывает? #### sc is a spark connection...
Как обсуждалось в нескольких других вопросах ( здесь и здесь ), команда hadoop fs -du -s -h (или...
Столбцы feature_1_(double) и feature_2_(double) в приведенном ниже кадре данных (df2) создаются с...
Я хочу создать класс case динамически, и для этого я написал программу, но не смог определить класс...
Мне нужна помощь, чтобы понять итерацию в 'scala'.У меня есть фрейм данных, который имеет другой...
Я пытаюсь загрузить и написать таблицу больших запросов, используя spark, однако я не могу ни...
Я использую Spark (более EMR 5.24.0) в качестве механизма распределенной обработки для большой...
Я получаю ошибку ниже при разборе файла XML, который имеет 20 уровней вложенности в кластере...
Spark version is 2.3.0.2.6.5.0 and sparklyr is 0.6.4 Error message is: Error in start_shell(master =...
Я предварительно обрабатываю свои данные (2000K + строки) и хочу подсчитать дублированные столбцы в...
Я получаю сообщение об ошибке ниже, когда пытаюсь составить список больших двоичных объектов,...
У меня есть датафрейм, df2, такой как: ID | data -------- 1 | New 3 | New 5 | New и основной кадр...