Вопросы с тегом pyspark

0 голосов

0 ответов

Как я могу экспортировать PySpark Dataframe в CSV-файл?

У меня проблема с экспортом фрейма данных pyspark в CSV. Возможно, я неправильно понимаю, как...

GeoSal / 17 января 2019

0 голосов

0 ответов

Python PySpark: вычесть целочисленный столбец из столбца даты. Ошибка: объект столбца не может быть вызван

Я использую PySpark. У меня есть столбец, который является столбцом типа данных даты, и другой...

PineNuts0 / 17 января 2019

0 голосов

0 ответов

Лямбда-выражение не работает в PySpark, PyCharm?

следующий код выполняется в PyCharm IDE from pyspark.sql import SparkSession spark = SparkSession

Ismail / 17 января 2019

0 голосов

0 ответов

Передача зависимостей Python в Spark Cluster

Я понимаю, что мы можем передавать файлы python в кластер spark, используя --py-files spark-submit...

syv / 17 января 2019

0 голосов

0 ответов

Inner Join On (Hive) дает другой результат, чем PySpark Inner Join

Я наблюдал это явление сегодня. Когда я выполняю следующую команду в Hive CLI, я получаю что-то...

azeriox / 17 января 2019

0 голосов

0 ответов

python: разбить среднее количество друзей по возрастным группам

я написал код в последовательном режиме, используя python, и параллельную версию того же кода в...

abraham foto / 17 января 2019

0 голосов

0 ответов

Создайте RDD или Dataframe, используя pyspark для списка csv-файлов, где должна быть удалена 1-я строка каждого файла

Мой CSV-файл выглядит так: "ABC_REPORT (Jan 16, 2019)" Cid,Aid,Time zone,View,Active...

Ankita Kukreja / 17 января 2019

0 голосов

1 ответ

Pyspark не входит в файл

Я запускаю скрипт pyspark с командой spark-submit, перенаправляя стандартный вывод в файл тоже с...

Francesco Boi / 17 января 2019

0 голосов

2 ответов

Ошибка импорта AWS Glue: невозможно импортировать имя explode_outer

Когда я пытаюсь запустить искровое задание в AWS Glue, появляется следующее сообщение об ошибке....

sakthi srinivas / 17 января 2019

0 голосов

2 ответов

Работа с микросекундными метками времени в PySpark

У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08:15:45.275753. Я хочу...

CodeGeek123 / 17 января 2019

0 голосов

0 ответов

Вид улья не полностью загружен в PySpark

Когда я попытался загрузить представление Hive с помощью HiveContext в PySpark, я заметил некоторые...

azeriox / 17 января 2019

0 голосов

1 ответ

Эффективное объединение большого количества pyspark DataFrames

Я пытаюсь выполнить объединение тысяч кадров в списке Python. Я использую два подхода, которые...

Nacho / 17 января 2019

0 голосов

1 ответ

PySpark 2.4: программно добавлены Maven JAR координаты перестали работать

Ниже приведен мой фрагмент запуска PySpark, который довольно надежен (я давно его использую)....

NYCeyes / 17 января 2019

0 голосов

0 ответов

Последовательный LSTM на свече

У меня есть последовательный lstm keras, который отлично работает на краевом узле кластера hadoop,...

b.Thomp / 17 января 2019

0 голосов

1 ответ

python: уменьшить на ключ с условным оператором if?

(K1, (v1, v2)) (K2, (v3, v4)) (K1, (v1, v5)) (K2, (v3, v6)) Как можно суммировать значения ключа,...

abraham foto / 17 января 2019

0 голосов

1 ответ

Как Паркет обрабатывает столбцы SparseVector?

Я очень новичок в PySpark. Я собирал tfidf и хочу сохранить его на диске в качестве промежуточного...

lU5er / 16 января 2019

0 голосов

0 ответов

Pyspark 2.3.2 не работает с hadoop 2.8.3 из-за netty?

Я установил Hadoop версии 2.8.3 в моей среде Windows 10 (псевдораспределенный режим), и она...

Anubhav Jain / 16 января 2019

0 голосов

2 ответов

Использование Spark с Flask с JDBC

Что я делаю? Я хочу создать службу API с использованием Flask для извлечения данных из одной базы...

leogoesger / 16 января 2019

0 голосов

2 ответов

Как улучшить это регулярное выражение для работы в других ситуациях?

Я могу разбить эту строку: 199.72.81.55 - - [01/Jul/1995:00:00:01 -0400] "GET /history/apollo/...

Michel Excel / 16 января 2019

0 голосов

0 ответов

Нужна помощь в SQL-запросе pyspark со сложным требованием

Мне понадобилось 5 минут, чтобы придумать этот отстойный заголовок, так как проблема была очень...

Suprakash Nandy / 16 января 2019

0 голосов

1 ответ

Постоянная таблица Spark недоступна на другом узле

У меня есть простой Spark (2.3.0) автономный кластер с 1 мастером и 2 рабочими (узел-1 и узел-2). Я...

pkwied / 16 января 2019

0 голосов

1 ответ

Создайте один массив данных из нескольких файлов CSV с разными заголовками в Spark

В Spark с помощью Pyspark я хочу создать один фрейм данных (где путь фактически является папкой в...

adamcloud / 16 января 2019

0 голосов

1 ответ

Как создать df динамически при зацикливании списка в python?

def create_df(src,header=None): df =spark.read.csv(src, header=header) return df result = source_df

RAJ / 16 января 2019

0 голосов

0 ответов

структура и массив во фрейме данных, показывающий тип данных в виде строки в pyspark

У меня есть файл Json, как упомянуто ниже, в котором есть массив и структура для одного элемента...

dasari suneel / 16 января 2019

0 голосов

0 ответов

pyspark - чтение даты разбитых файлов avro из облачного хранилища Google

Я пытаюсь прочитать разделенные по дате avro-файлы, хранящиеся в облачном хранилище Google, с...

user1411837 / 16 января 2019