Я знаю, что мы можем заменить значения в столбце данных и вернуть новый кадр данных с обновленными...
У меня огромный набор данных с почти 600 столбцами, но, хотя я пытаюсь создать DF, происходит сбой...
У меня есть фрейм данных в PySpark, как показано ниже. import pyspark.sql.functions as func df =...
У меня ниже 3 sqls. select count(distinct visitor_id) from df_and_lkp_join_cache --178996 select...
У меня есть строка, разделенная запятой.Я хочу удалить все данные перед моей второй запятой вместе...
18/05/31 18:33:45 WARN Utils: Truncated the string representation of a plan since it was too large....
Я новичок в Zeppelin (и spark & sql) и пытаюсь запустить пример в блокноте Zeppelin.Я не могу...
Я использую spark-sql в среде Hortonworks HDP 2.6.4 Sandbox.Я создал 2 очень простые таблицы в...
У меня есть Dataframe с 2 столбцами tag и value. Я хочу добавить новый столбец, содержащий столбец...
все. Я пытался использовать beeline для подключения к Spark Thrift Server, и данные находятся в...
Я использую соединитель hbase-spark для извлечения данных hbase в искру JavaRDD<Row> (что, по...
У меня есть коллекция MongoDB с 26 000 записей, которые я читаю в DataFrame.У него есть столбец...
У меня есть следующий код: - val conf = new SparkConf() .setAppName("Data")
Как можно использовать базу данных InfluxDB (в которую поступают потоковые данные) в качестве...
У меня есть около 100 файлов (файлы CSV, сжатые в формате .GZ) на моем HDFS Dir, и каждый файл...
У меня есть df, и мне нужно искать, есть ли какой-либо набор элементов из списка ключевых слов или...
У меня есть данные в файле, как показано ниже: 7373743343333444. 7373743343333432. Эти данные...
Мой код написан на Spark и Scala.Теперь мне нужно измерить прошедшее время определенных функций...
Используя spark и scala, я хотел бы установить структуру и использовать одно из значений столбца в...
Я пытаюсь определить несколько отсортированных выходных данных, используя наборы данных в искре...
Попытка преобразовать базу данных postgreSQL в Dataframe.Вот мой код: from pyspark.sql import...
Я создаю искровое задание, и часть кода, о которой идет речь, выглядит следующим образом: var...
Как я могу вычислить tf-idf, сгруппированный по столбцу, а не по всему фрейму данных? Предположим,...
когда я использую func.when () в pyspark, я обозначаю как ` TypeError: 'Column' object is...
У меня есть текстовый файл, и у меня есть данные, подобные приведенным ниже:...