Вопросы с тегом pyspark

0 голосов

1 ответ

Как проанализировать строковый столбец json в DataStreamReader pyspark и создать фрейм данных

Я читаю сообщения из темы кафки messageDFRaw = spark.readStream\ .format("kafka")\

Ram / 15 февраля 2019

0 голосов

2 ответов

pyspark, вычисляющий скользящее среднее разницы между текущим и последним активным временем

У меня есть такая запись. A B 1 2018-12-25 2 2019-01-15 1 2019-01-20 3 2018-01-01 2 2019-01-01 4...

Eleanor / 15 февраля 2019

0 голосов

0 ответов

Запрос таблицы Hbase в Pyspark с использованием Connector

Я боролся с тем, как сделать запрос pyspark, который извлекает данные из созданной мною таблицы...

CadenJoe / 15 февраля 2019

0 голосов

0 ответов

Плохие записи в данных и как загрузить их в улей после записи их в отдельные файлы

Как обрабатывать данные при загрузке в таблицы улья? Я хочу обработать загрузку данных записей,...

Joe Root / 15 февраля 2019

0 голосов

0 ответов

Как выбрать группы в pyspark?

У меня есть фрейм данных с> 1M группами, и каждая группа содержит около ~ 100 записей (строк).Как...

Louis Yang / 15 февраля 2019

0 голосов

1 ответ

Как создать новый столбец для моего фрейма данных, значениями которого являются карты, составленные из значений из разных столбцов?

Я видел похожие вопросы, но не смог найти именно то, что мне нужно, и изо всех сил пытался понять,...

ak2 / 14 февраля 2019

0 голосов

1 ответ

Запрос Vertica между датами из PySpark

У меня Spark 1.6 работает на Python 3.4, извлекает данные из моей базы данных Vertica для работы с...

Nikolan Asad / 14 февраля 2019

0 голосов

1 ответ

Создание Spark DataFrame из Pandas DataFrame

Я пытаюсь построить Spark DataFrame из простого Pandas DataFrame.Это шаги, которые я выполняю....

Sergio Roldán / 14 февраля 2019

0 голосов

1 ответ

Apache / Cloudera HUE / Livy Spark Server - InterpreterError: Не удалось запустить интерпретатор

Я в растерянности на данный момент.Я пытаюсь запустить PySpark / SparkR на Apache HUE 4.3,...

jhomr / 14 февраля 2019

0 голосов

0 ответов

Переформатировать набор данных с помощью pyspark

У нас есть набор данных из https://archive.ics.uci.edu/ml/datasets/Plants формат этих данных - файл...

Mohammed Shihab / 14 февраля 2019

0 голосов

0 ответов

Есть ли какая-либо функция pyspark для добавления столбца с последовательным номером в кадре данных?

Я хочу добавить индексный столбец в моем фрейме данных pyspark.я использую этот код: from pyspark

Charbel Keedy / 14 февраля 2019

0 голосов

0 ответов

Как использовать пользовательский разделитель в методе pyspark sparkContext textFile

Я пытаюсь прочитать текстовый файл и разделить его на предложения с помощью спарка.Для этого мне...

user415612 / 14 февраля 2019

0 голосов

1 ответ

Pyspark 2.4.0, чтение авро с кафки с потоком чтения - Python

Я пытаюсь читать авро-сообщения от Кафки, используя PySpark 2.4.0. Внешний модуль spark-avro может...

Panagiotis Fytas / 14 февраля 2019

0 голосов

0 ответов

Pyspark: запись фрейма данных, содержащего разделитель в значении

У меня есть CSV-файл с разделителем (",") в одном из столбцов.Пример: 1,Ajinkya,100 2,Shital,200 3...

Harsh Bafna / 14 февраля 2019

0 голосов

0 ответов

преобразование rdd для получения кортежей k-грамм в pyspark

Возьмите предложение: «Это искра апача».Я хочу иметь возможность преобразовывать каждое слово в...

user415612 / 14 февраля 2019

0 голосов

2 ответов

Получить элементы "name" из столбца типа массива dataframe в pyspark

Я сгенерировал pyspark.sql.dataframe.DataFrame с приведенными именами столбцов и счетом. Однако я...

user3459293 / 14 февраля 2019

0 голосов

0 ответов

PySpark: разделите фрейм данных на основе значений столбцов и сохраните результирующие фреймы данных в списке

У меня есть фрейм данных pyspark с 4 столбцами: город, время года, переменная погоды,...

Sourav / 14 февраля 2019

0 голосов

1 ответ

как запустить искру от jupyter на клиенте пряжи

У меня есть один кластер, развернутый с использованием менеджера cloudera и спарк-пакета, при...

Exorcismus / 14 февраля 2019

0 голосов

1 ответ

режим кластера spark-submit не работает для python spark, но работает для scala spark

У меня есть кластер, в котором мы настроили hadoop со встроенной искрой.Версия spark - это spark v2

Deepesh Rehi / 14 февраля 2019

0 голосов

1 ответ

Pyspark - DataFrame persist () выдает ошибки java.lang.OutOfMemoryError: Превышен лимит накладных расходов GC

Сбой задания Pyspark, когда я пытаюсь сохранить DataFrame, созданный в таблице размером ~ 270 ГБ, с...

Sam / 14 февраля 2019

0 голосов

1 ответ

PySpark drop-dupes основан на условии столбца

Все еще новичок в Spark, и я пытаюсь сделать это окончательное преобразование максимально чистым и...

DataDog / 14 февраля 2019

0 голосов

1 ответ

Объект SparkSession не имеет атрибута serializer при оценке классификатора в Pyspark.

Я использую Apache spark в пакетном режиме.Я настроил весь конвейер, который преобразует текст в...

Cobra / 14 февраля 2019

0 голосов

1 ответ

Informix JDBC PySpark считывает результаты в именах столбцов как значения столбцов

Я читаю данные из различных источников JDBC, используя метод чтения PySpark.JDBC читает из Teradata...

Hein du Plessis / 13 февраля 2019

0 голосов

1 ответ

pyspark логическое соединение для vertica sql

spark1.6, извлечение данных из моей базы данных Vertica для работы с ним, приведенный ниже запрос...

Mahmoud Odeh / 13 февраля 2019

0 голосов

0 ответов

Подстрока соответствия в строке

Я пытаюсь найти и заменить значение в строке столбца, используя другой столбец. У меня есть две...

user3916316 / 13 февраля 2019