Вопросы с тегом pyspark

0 голосов

1 ответ

получить уникальные значения столбцов из нескольких фреймов данных PySpark, используя условие цикла for

У меня есть 2 фрейма данных PySpark (DF1 и DF2), и я хотел бы перебрать некоторые столбцы (colA,...

thecoder / 28 октября 2018

0 голосов

1 ответ

Как прочитать разделенную трубкой строку в информационном кадре?

Мне нужно прочитать файл в spark (databricks) как bytes и преобразовать его в строку. file_bytes

m1nkeh / 27 октября 2018

0 голосов

1 ответ

Как использовать azure-sqldb-spark разъем в pyspark

Я хочу ежедневно записывать около 10 ГБ данных в базу данных SQL-сервера Azure с помощью PySpark. В...

Ajay Kumar / 27 октября 2018

0 голосов

0 ответов

Spark, HIVE;Вопрос о системной раздаче 2 ТБ в день

Моя команда должна создать базу данных HIVE для обработки и доступа к очень большому количеству...

notilas / 27 октября 2018

0 голосов

0 ответов

spark-submit не соблюдает мои настройки

, вот как я вызываю свою работу в pyspark: ./spark-submit --master yarn...

Aditya / 27 октября 2018

0 голосов

0 ответов

Что лучше всего увидеть, если точка (широта и долгота) лежит в пределах многоугольника для фрейма данных pyspark со столбцами широты и долготы?

Как лучше всего смотреть, если точка (широта и долгота) лежит в пределах многоугольника?У меня есть...

Namo / 26 октября 2018

0 голосов

0 ответов

Является ли HashingTF в Spark детерминированным?

Я хочу использовать HashingTF для подсчета некоторых объектов в большом наборе данных, но позже мне...

Evan Zamir / 26 октября 2018

0 голосов

0 ответов

Консольный вывод с рабочих узлов в файл в режиме кластера Spark

Я запускаю сценарий pyspark, используя spark-submit.Задание выполняется успешно. Теперь я пытаюсь...

user10140821 / 26 октября 2018

0 голосов

0 ответов

Pyspark StreamingKMeans.predictOn () безумный рост объема памяти

Я столкнулся с проблемой при использовании StreamingKMeans.Следующий минимальный фрагмент кода...

Will Hardman / 26 октября 2018

0 голосов

2 ответов

Читайте в CSV в Pyspark с правильными типами данных

Когда я пытаюсь импортировать локальный CSV с помощью spark, каждый столбец по умолчанию читается...

Patrick Glettig / 26 октября 2018

0 голосов

1 ответ

Создание нового столбца из другого столбца в Apache Spark с использованием UDF

Я пытаюсь создать новый столбец из другого столбца в Apache Spark. Данные (сильно сокращенно)...

con / 26 октября 2018

0 голосов

2 ответов

Как получить линейный результат линейной регрессии в Pyspark?

Я запускаю простую линейную регрессию на очень маленьком наборе данных с использованием Pyspark, но...

MrZoo9000 / 26 октября 2018

0 голосов

1 ответ

Проблема с сохранением искры DataFrame в виде таблицы Hive

У меня есть два кадра данных искры. Один из них получен из таблицы улья с использованием...

Vladimir Sazonov / 26 октября 2018

0 голосов

1 ответ

Соглашения / ограничения именования столбцов данных Spark

У меня возникли проблемы с именами по умолчанию (импортированными из полученных файлов .csv) имен...

Thomas / 26 октября 2018

0 голосов

0 ответов

Добавить операторы импорта Python в код Pyspark

Я хочу добавить несколько импортов python в существующий код pyspark. Мое намерение состоит в том,...

Anish Sharma / 26 октября 2018

0 голосов

1 ответ

Как получить значение массива dataFrame в пустом массиве python

Я работаю с блоком данных (pyspark) У меня есть фрейм данных, который содержит массив со строковым...

celllaa95 / 26 октября 2018

0 голосов

0 ответов

Добавление библиотеки Pandas в Spark без установки ее вручную на узлы кластера

У меня проблема с использованием Python на Spark.Я хочу использовать Панд на Spark, и я не нахожу...

FlaCan / 26 октября 2018

0 голосов

0 ответов

Как сделать файлы базы данных maxmind внутри кластера pyspark

Я использую файлы базы данных maxmind для поиска по ip. Я использую город и базу данных isp....

Sandie / 26 октября 2018

0 голосов

0 ответов

RuntimeError: Вектор результата из pandas_udf не был требуемой длины: ожидал 2, получил 1

Я пытаюсь использовать pandas_udf. У меня есть Spark DataFrame, в котором у меня есть столбец...

Vzzarr / 26 октября 2018

0 голосов

2 ответов

преобразовать строковый столбец в удвоенный период с десятичной точкой и разделителем тысяч

Я пишу программу для исправления значений столбцов базы данных (вход CSV) с числами, соединенными...

David Martin / 26 октября 2018

0 голосов

1 ответ

Есть ли что-то вроде хранимой процедуры / задания в Hadoop (Hive)

Я использую Cloudera 5.14 Hadoop с PySpark на Hive. И мне было интересно, есть ли возможность иметь...

bazinac / 26 октября 2018

0 голосов

0 ответов

Как мне создать DataFrame, используя Pyspark DataFrame, как я это делаю с помощью pandas？

У меня есть два списка, как показано ниже: Я хочу объединить эти списки в такой фрейм данных, как...

K.Tomita / 26 октября 2018

0 голосов

0 ответов

PySpark: ImportError, когда один файл импортирует другой

У меня проблемы при попытке распространить как файл модуля calculate_scores.py, так и пакет...

Anna K. / 26 октября 2018

0 голосов

1 ответ

Можно ли наносить CDC на файл паркета?

Я использую spark и мне нужно применить файлы cdc из реплики базы данных к файлу паркета, как...

user3153442 / 25 октября 2018

0 голосов

1 ответ

Как загрузить модули из определенного каталога в pyspark

У меня есть скрипт на python, который я выполняю на узле Master, используя spark-shell.Этот скрипт...

Sandie / 25 октября 2018