Вопросы с тегом pyspark

0 голосов

1 ответ

Файл данных Spark json не существует

df = spark.read.format("json").option("header", "true")

Anshul / 05 февраля 2019

0 голосов

1 ответ

Как загрузить файл в каждого исполнителя один раз?

Я определяю следующий код для загрузки предварительно встроенной модели встраивания: import gensim...

bib / 05 февраля 2019

0 голосов

1 ответ

Pyspark - сравнивает два фрейма данных, удаляя точно совпадающие строки, объединяя строки с различиями, затем обнуляя совпадающие значения

Так что я знаю, как сравнивать два фрейма данных и удалять строки, которые совпадают, используя...

timbram / 05 февраля 2019

0 голосов

0 ответов

Как преобразовать строку даты / времени в Юникоде в python datetime в pyspark

Мой вопрос о том, как преобразовать строку даты / времени Unicode в python datetime в pyspark Я...

Bill Bardwell / 05 февраля 2019

0 голосов

1 ответ

Нужно решение по подключению Teradata с помощью Pyspark

У меня есть код ниже, который будет использоваться для соединения enoop hadoop с Teradata. sc =...

KoushikDe / 05 февраля 2019

0 голосов

1 ответ

Один и тот же код возвращает разные результаты из разных прогонов

Я мой код, есть таблица данных, которую я создал из таблицы улья.И я делаю простой фильтр с...

Mike / 05 февраля 2019

0 голосов

1 ответ

переменная искры в pyspark против SparkSession

Когда мы запускаем pyspark (spark 2.4), он поставляется с функцией подчеркивания для вызова...

etl_devs / 05 февраля 2019

0 голосов

0 ответов

Чтение PySpark-PyTest пути к каталогу CSV-файлов

Проблема: Путь к каталогу Spark csv относится к предыдущему каталогу. содержит файлы csv 1....

Navaneeth Pal / 05 февраля 2019

0 голосов

1 ответ

PySpark выполняет задание в автономном режиме, но с пользовательскими модулями?

Я установил искру на какой-либо машине, чтобы использовать ее в автономном режиме кластера.Так что...

Iulian / 05 февраля 2019

0 голосов

2 ответов

Pyspark - не сохраняющий родительский фрейм данных также удаляет дочерний фрейм данных из кэша

Я делаю что-то вроде этого: import pandas as pd pdf = pd.DataFrame({ 'a': [1, 2, 3],...

Ferrard / 05 февраля 2019

0 голосов

0 ответов

Непоследовательная репликация счетчика векторизатора

У меня проблемы с несовместимостью Countvectorizer пакета функций ml.Когда я воспроизводю...

raffaelo92 / 05 февраля 2019

0 голосов

0 ответов

Ошибка URI pyspark при чтении файла s3 с символом «:» в имени файла

Я не могу прочитать файлы json с корзины s3.Это код, который я использую: import os os

Blue Moon / 05 февраля 2019

0 голосов

2 ответов

Выберите файлы в указанном диапазоне с помощью регулярного выражения

У меня есть папка с 100 папками, названная так: parent_folder/05/01/ parent_folder/05/02/...

Qubix / 05 февраля 2019

0 голосов

2 ответов

Исключение PySpark в облаке

Я использую spark 2.4.0 в Google Cloud Compute Engine с CentOS 6 и 3,75 ГМ памяти.Когда я пытался...

Parijat Bose / 05 февраля 2019

0 голосов

1 ответ

Расчет и агрегирование данных по дате / времени

Thomas Hahn / 05 февраля 2019

0 голосов

0 ответов

Spark Session создать в мастер-узле

Я пытаюсь запустить свой искровой код с ноутбука Jupyter на сервер своей компании.Поэтому я...

Taimur Islam / 05 февраля 2019

0 голосов

1 ответ

PySpark: подсчитать каждый элемент в flatmap

У меня проблемы с подсчетом каждого элемента в списке, который я создал в PySpark. Вот с чем я...

MitterHai / 05 февраля 2019

0 голосов

1 ответ

Как скопировать файл в pyspark / hadoop из python

Я использую pyspark для сохранения фрейма данных в виде файла паркета или в виде файла csv с этим:...

someguy / 05 февраля 2019

0 голосов

2 ответов

Как получить проценты по каждой категории на указанную дату с помощью PySpark

Даем попробовать в Pyspark и боремся. У меня есть это здесь ... internal_pct_by_day = df_resampled

Frankie / 05 февраля 2019

0 голосов

2 ответов

Как игнорировать двойные кавычки при чтении CSV-файла в Spark?

У меня есть CSV-файл, например: col1,col2,col3,col4 "A,B","C", D" Я хочу...

someguy / 04 февраля 2019

0 голосов

0 ответов

Поворот в pyspark без предоставления списка различных значений

Ошибка при попытке выполнить поворот с использованием списка в фрейме данных pyspark В различных...

vagautam / 04 февраля 2019

0 голосов

0 ответов

SparkML LogisticRegression и Sklearn's: разные коэффициенты и перехваты

Возможно, мне не хватает некоторых параметров инициализации или чего-то в этом роде. Я создал LR в...

Jeff Saremi / 04 февраля 2019

0 голосов

1 ответ

spark-submit --master local [n] не может создавать многопоточность

Я пишу код pyspark для обработки некоторых данных spark-sql. В прошлом месяце все работало отлично,...

xinwei li / 04 февраля 2019

0 голосов

3 ответов

Автономная установка Spark не может подключиться к мастеру

У меня Spark 2.3.1 работает на моей локальной машине с Windows 10.Я не возился с какими-либо...

WitchKingofAngmar / 04 февраля 2019

0 голосов

0 ответов

Spark вызывает автоматическое разделение

Я использую кластер EMR со следующей конфигурацией: 1 ведущий, 4 ведомых.Общее количество...

Tanuj / 04 февраля 2019