Вопросы с тегом bigdata

1 голос

0 ответов

Pyspark Shuffle Написать размер

Я читаю данные из двух источников на этапах 2 и 3. Как вы можете видеть, на этапе 2 размер входного...

Y.Su / 24 сентября 2019

0 голосов

0 ответов

альтернативы повороту очень больших столовых панд

У меня есть кадр данных размером 25M x 3 столбца: import pandas as pd import numpy as np...

alex / 24 сентября 2019

0 голосов

1 ответ

Как быстрее читать несколько файлов CSV с помощью панд Python

Моя программа должна читать ~ 400.000 CSV-файлов, и это занимает очень много времени.Код, который я...

jorj9 / 23 сентября 2019

0 голосов

0 ответов

Результат равен нулю после переноса секционированной таблицы внешнего куста из одной базы данных в другую

У меня есть динамически разделенная внешняя таблица кустов в одной базе данных, например, db_test1,...

chan / 23 сентября 2019

2 голосов

1 ответ

Как обновить несколько строк в многораздельной таблице в улье?

Мне нужно обновить некоторые строки в секционированной таблице по дате, с диапазонами дат, и я не...

javier_orta / 23 сентября 2019

1 голос

2 ответов

Найти частоту слов из большого файла

У меня есть такой текстовый файл: tom and jerry went to america and england Я хочу получить частоту...

TweetMan / 22 сентября 2019

0 голосов

1 ответ

Обработайте несколько миллиардов записей из Redshift, используя пользовательскую логику

Я хочу применить пользовательскую логику к набору данных, помещенному в Redshift.Пример входных...

SirJ / 22 сентября 2019

0 голосов

0 ответов

hadoop fs –copyFromLocal words.txt, выдающий ошибку как –copyFromLocal: неизвестная команда

hadoop fs –copyFromLocal words.txt выдает выходные данные в виде –copyFromLocal: неизвестная...

Rajesh Bhardwaj / 22 сентября 2019

0 голосов

1 ответ

Может ли Spark игнорировать сбой задачи из-за проблемы с данными учетной записи и продолжить процесс задания для других учетных записей?

Я хочу, чтобы spark игнорировал некоторые неудачные задачи из-за проблем с данными.Кроме того, я...

gkarch / 22 сентября 2019

0 голосов

2 ответов

Каков наилучший способ разбить огромные CSV на основе условия?

У меня есть 10 файлов CSV, каждый из которых составляет около 40-60 ГБ.Я хотел узнать наиболее...

Roshan Joe Vincent / 20 сентября 2019

0 голосов

0 ответов

Малая очередь с резервированием всей памяти в кластере пряжи

Наш кластер настроен на пряжу с несколькими личными и общими очередями.Предполагается, что одна из...

pwb2103 / 20 сентября 2019

0 голосов

1 ответ

объединение сгруппированных результатов в Hive

Мне нужно разбить запрос Hive, сгруппированный по столбцу идентификаторов, за кварталы календарного...

hghg hghg / 19 сентября 2019

1 голос

0 ответов

Python: при написании вложенного словаря программа резко замедлилась (она все еще работает, но не выводится)

У меня есть код Python, который пишет вложенный словарь из таблицы в SQLite.Таблица насчитывает...

Öykü Öngün / 19 сентября 2019

0 голосов

0 ответов

Размеры паркета Pyspark резко отличаются

Я использую pyspark для ежедневной обработки фиксированного набора записей данных и сохраняю их в...

Y.Su / 19 сентября 2019

1 голос

3 ответов

Как сделать подсчет записи .csv и прикрепить это количество с процессором электронной почты, чтобы отправить кого-нибудь?

До сих пор я пробовал следующее: любезно опишите подробно, сколько способов вы можете прочитать

Izhar Ali / 19 сентября 2019

0 голосов

3 ответов

Spark локальная переменная передается исполнителю

var countryMap = Map("Amy" -> "Canada", "Sam" -> "US",...

Edward Wang / 19 сентября 2019

0 голосов

0 ответов

Функция вероятности Scala / Spark Softmax

У меня есть таблица разных вероятностей для разных классов (многогрупповая задача).Есть ли способ...

Hider1466 / 12 июля 2019

0 голосов

3 ответов

Multiply DF Column Spala Spark

Если у меня есть столбец чисел, как мне их умножить? val numbers = Seq((2, 7),(1, 9),(10, 0))

Hider1466 / 12 июля 2019

0 голосов

0 ответов

Какие шаги я должен предпринять, чтобы построить проект по науке о данных с нуля?

моя компания создает команду по науке о данных, пока я единственный.У меня есть некоторый опыт...

ed_deut / 11 июля 2019

0 голосов

0 ответов

Какая платформа / инструмент с открытым исходным кодом лучше всего подходит для построения трубопроводов ML?

В частности, мне нужна платформа с открытым исходным кодом, которая поддерживает мою модель для...

sai / 11 июля 2019

0 голосов

0 ответов

Функция кластера в R, которая принимает длинные векторы?

У меня есть около 700 000 наблюдений, которые можно упорядочить и объединить для целей социальных...

Janet / 11 июля 2019

2 голосов

2 ответов

ElasticSearch медленно извлекает документы

Я использую Java_API для извлечения записей из ElasticSearch, для извлечения 100000 документов...

Jibo / 11 июля 2019

0 голосов

0 ответов

Кластер Hadoop в режиме высокой доступности (с standBynameNode) под докером

Кто-нибудь может порекомендовать полное решение для кластера hadoop в режиме HA, представленного...

Андрей Козицкий / 11 июля 2019

1 голос

0 ответов

Есть ли лучший способ оптимизировать мой Compare_code из двух больших списков 260k строк в Python, который работает только для строк FES

В компании, где я работаю, нас заставляют сравнивать имена клиентов двух файлов, это 11231 строка в...

Natiss / 11 июля 2019

1 голос

0 ответов

Предварительно обработать сжатый файл перед обработкой в Spark

У меня есть искра, которая обрабатывает несколько сжатых файлов. Файлы имеют кодировку Windows 1252...

Terry Dactyl / 11 июля 2019