Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
2 ответов

ТАК У меня есть следующий набор данных с форматом даты Месяц День, Год .. df = spark.read

Rudy / 12 марта 2019
1 голос
0 ответов

У нашей команды есть набор Hive QL, поэтому при переходе на spark мы хотим повторно использовать...

leon / 12 марта 2019
0 голосов
2 ответов

IPYNB У меня есть датафрейм user_recommended, как показано на рисунке.Столбец recommendations...

Gui Kham / 12 марта 2019
0 голосов
0 ответов

Я пробовал PySpark RandomForestClassifier при определении важности объектов, и я был озадачен,...

nicholas_law_91hotmailcom / 12 марта 2019
0 голосов
2 ответов

Это часть домашнего задания и простой концептуальный вопрос. У меня есть записи значений ключей в...

Frederic Bastiat / 12 марта 2019
2 голосов
0 ответов

Я использую sampleBy () получить стратифицированную выборку на кадре данных искры. samples = df

Dyno Fu / 12 марта 2019
2 голосов
1 ответ

Я пытаюсь прочитать индекс ElasticSearch , который содержит миллионы документов, каждый из которых...

TRam / 12 марта 2019
1 голос
1 ответ

у меня есть файл json, содержащий некоторые данные, я преобразовал этот json в фрейм данных pyspark...

Deemah Alomair / 12 марта 2019
2 голосов
1 ответ

У меня есть понятие, я надеюсь, вы можете помочь уточнить: В чем разница между следующими тремя...

Zilong Z / 11 марта 2019
0 голосов
0 ответов

Зачем нам нужен PySpark, если написанные на Python скрипты можно запускать в стандартном Spark? Я...

Ricky Technician / 11 марта 2019
0 голосов
2 ответов

У меня есть файлы A и B, которые в точности совпадают.Я пытаюсь выполнить внутреннее и внешнее...

Aviral Srivastava / 11 марта 2019
0 голосов
1 ответ

Два подхода к настройке Pyspark в IDE: Использование Pip, т.е. pip install pyspark, как указано в...

sumit kumar / 11 марта 2019
0 голосов
0 ответов

Существует фрейм данных hdfs parquet, называемый пол. gender = spark.read

Zhang Xin / 11 марта 2019
0 голосов
2 ответов

У меня есть файл .py в PySpark следующим образом from pyspark.sql import HiveContext, SQLContext,...

pythondumb / 11 марта 2019
1 голос
1 ответ

Они дали мне таблицу, в которой хранятся показания датчика со схемой [TimeStamp, SensorKey,...

dmcontador / 11 марта 2019
0 голосов
0 ответов

Я хочу установить Apache Spark v2.4 в моем кластере Kubernetes, но, похоже, не существует...

jtlz2 / 11 марта 2019
0 голосов
2 ответов

Рассмотрим этот набор данных рейтинга фильмов (userId, movieId, rating, timestamp) 1,1,4.0...

Kenny / 11 марта 2019
0 голосов
0 ответов

Я пытаюсь создать конвейер в реальном времени от Kafka до HBase, используя Pyspark, используя блог:...

SC_kumar / 10 марта 2019
0 голосов
1 ответ

Из документации spark я знаю, что порты, которые исполнители, то есть рабочие (потому что по...

Nemanja Beric / 10 марта 2019
0 голосов
1 ответ

Я хочу отсортировать имеющееся у меня СДР, которое содержит диапазон ключей 0-49995, такой что (0,...

MitterHai / 10 марта 2019
0 голосов
1 ответ

У меня есть датафрейм (pyspark.sql.dataframe.DataFrame) user_recs типа DataFrame[user: int,...

Gui Kham / 10 марта 2019
1 голос
0 ответов

У меня проблема с производительностью при работе с NLP в Pyspark, в Databricks: CONTEXT: У меня...

user8974073 / 10 марта 2019
0 голосов
1 ответ

Я слышал, что Spark SQL ленив: при обращении к таблице результатов Spark пересчитывает таблицу: (...

Joe C / 10 марта 2019
0 голосов
2 ответов

У меня есть задание PySpark, которое обрабатывает входные данные и обучает модель логистической...

Brian C / 09 марта 2019
0 голосов
1 ответ

Я пытаюсь обучить свой набор данных, используя ALS, чтобы найти скрытые факторы.Мой набор данных...

Gui Kham / 09 марта 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...