Вопросы с тегом апаш-искра - PullRequest

Вопросы с тегом апаш-искра

0 голосов
0 ответов

У меня есть данные, которые постоянно передаются в корзину S3. Я хочу настроить приложение...

Sherif Hamdy / 25 августа 2018
0 голосов
1 ответ
0 голосов
1 ответ

У меня есть текстовый файл в HDFS, который содержит около 10 миллионов записей. Я пытаюсь прочитать...

Sudharnath / 25 августа 2018
0 голосов
2 ответов

Я хотел бы понять, как лучше всего выполнить агрегацию в Spark в этом сценарии: import sqlContext

Giorgio / 25 августа 2018
0 голосов
1 ответ

У меня есть датафрейм, импортированный из CSV с двумя столбцами (среди прочих): дата и время.Date -...

Raiden616 / 25 августа 2018
0 голосов
1 ответ

У меня есть итератор, который работает с последовательностью документов WARC и выдает измененные...

Akshansh Gupta / 25 августа 2018
0 голосов
1 ответ

Мы получаем почасовые данные JSON в HDFS.Размер данных будет примерно 5-6 ГБ в час. , когда...

Varshini / 25 августа 2018
0 голосов
1 ответ
0 голосов
3 ответов

Я пытаюсь выяснить, как лучше всего работать с Airflow и Spark / Hadoop.У меня уже есть кластер...

Henrique Goulart / 25 августа 2018
0 голосов
1 ответ

Я установил Scala. Я установил Java 8. Также все переменные окружения были установлены для spark,...

Vibhor Gupta / 24 августа 2018
0 голосов
0 ответов

Я загружаю некоторые таблицы ORC из S3, но я полагаю, что я сталкиваюсь с некоторыми проблемами с...

kz3r / 24 августа 2018
0 голосов
1 ответ

DataFrame 1 - это то, что у меня есть сейчас, и я хочу написать функцию Scala, чтобы DataFrame 1...

Allen / 24 августа 2018
0 голосов
1 ответ

Мне нужно вставить строку в таблицу SQL из Spark, запущенного в Azure Databricks, и узнать, есть ли...

user3241068 / 24 августа 2018
0 голосов
1 ответ

Контекст У меня есть две таблицы, к которым я присоединяюсь / объединяюсь как часть моих искровых...

naj / 24 августа 2018
0 голосов
0 ответов

Я пытаюсь запустить автономный кластер Spark. На моем главном узле я запустил: ./sbin/start-master

Piyush Shrivastava / 24 августа 2018
0 голосов
1 ответ

Я пытаюсь использовать функцию Spark StringIndexer для столбца, содержащего около 15 000 000...

Interfector / 24 августа 2018
0 голосов
1 ответ

У меня есть одна таблица с большим количеством типов данных, и у некоторых данных есть одна...

Alexandre Leal / 06 июля 2018
0 голосов
2 ответов

Можно ли как-нибудь оценить выражение Column, если я использую только Literal (без столбцов данных)

Kaushal / 06 июля 2018
0 голосов
1 ответ

Я получаю данные от кафки в виде {"email":"test@example"...

Anonymous / 06 июля 2018
0 голосов
1 ответ

Я написал метод для фильтрации дубликатов из RDD и решил написать модульный тест для метода. Вот...

samba / 06 июля 2018
0 голосов
1 ответ

Я сопоставляю SpD RDD с очень дорогой функцией (потенциально десятки секунд на строку). Возможно,...

DNA / 06 июля 2018
0 голосов
1 ответ

У меня есть список дат, которые я хочу преобразовать в набор искровых данных, чтобы использовать их...

Crypto / 06 июля 2018
0 голосов
1 ответ

когда я собираю толстую банку с помощью пружинной загрузки, ее имя sparker4m-0.0.1.jar И я "подаю...

W.X / 06 июля 2018
0 голосов
1 ответ

Я обновил нашу систему HDP (Hortonworks Data Platform) с 2.5.2 до новейших версий (2.6.5). Все...

Phong Pham / 06 июля 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...