Вопросы с тегом bigdata

0 голосов

0 ответов

Задача вычисления матрицы различий в R с использованием TSclust

У меня есть около 1000 временных рядов по 1500 каждый, и я хочу кластеризовать их, используя...

Lush_coding / 03 октября 2019

0 голосов

0 ответов

Нет ошибки в команде Redshift Copy для загрузки ORC, но таблица Redshift не обновляется

Я загружаю файлы ORC, присутствующие в корзине Amazon S3, в базу данных Amazon Redshift с помощью...

Amiteshwar Singh / 03 октября 2019

0 голосов

0 ответов

Redshift копия из json «Оператор не завершил выполнение» с пустыми ошибками stl_load_errors

У меня есть файлы json.gz в S3. Размер файлов от нескольких килограммов до 300 МБ (сжатых). Попытка...

SirJ / 03 октября 2019

1 голос

1 ответ

Чтение большого файла (более 60 ГБ) и запись нового файла

Существует один файл размером 60 ГБ и 200 000 000 строк. Полезная нагрузка файла показана ниже....

m2sj / 02 октября 2019

1 голос

2 ответов

Как ускорить чтение, запись base64, закодированные сжатые большие файлы в Java

Задача - сжать / распаковать очень большие данные > 2G , которые не могут быть удержаны одной...

Eagle / 02 октября 2019

0 голосов

1 ответ

Dask dataframe: как преобразовать столбец dtype из объекта в числовой

Работая в Python, я использую dask для набора данных ~ 20 ГБ. Один из столбцов содержит целые числа...

user3424575 / 01 октября 2019

0 голосов

1 ответ

Elasticsearch занимает минуту для ответа на запрос агрегации

Document count: 4 Billion disc size : 2 TB Primary: 5 replica: 2 master node : 3 data node: 4 *...

BlackPOP / 01 октября 2019

0 голосов

1 ответ

Как я могу загрузить 300 ГБ файл в spark scala и записать его в базу данных, не пропуская ни одной записи?

Поскольку я новичок в Spark , поэтому я пытаюсь использовать этот способ. val df = sqlContext.read

Karam / 01 октября 2019

0 голосов

0 ответов

Создание datalake в SOA

Как мне создать крупномасштабный набор данных и запустить потоковые / пакетные задания поверх него...

Nari / 01 октября 2019

0 голосов

1 ответ

Где я могу найти большой набор данных

Я ищу огромные наборы текстовых классификаций, чтобы применить то, что я изучаю в курсе машинного...

marOne / 30 сентября 2019

1 голос

0 ответов

Ежедневный архив данных из Postgres в Hive / HDFS

Я работаю над конвейером данных IOT и каждую секунду получаю сообщения с нескольких устройств в...

Bhanuday Birla / 29 сентября 2019

0 голосов

0 ответов

Как оптимизировать полнотекстовый поиск MySQL / MyISAM со многими результатами

У меня есть MySQL-таблица MySQL с полнотекстовым индексом для столбца ключевых слов и 20 миллионами...

christianb35 / 29 сентября 2019

1 голос

0 ответов

Создание заголовка таблицы начальной загрузки с неограниченной высотой таблицы или большим набором данных

Справочная информация : я делаю отзывчивое приложение Angular 8, у меня есть таблица с очень...

Ali Saberi / 27 сентября 2019

0 голосов

0 ответов

Сравните два фрейма данных с огромными данными, используя функцию render_diff () из пакета daff в R

У меня есть 2 следующих фрейма данных a1 и a2 a1 <- data.frame(a = 1:5, b=letters[1:5]) , a2...

jazzie / 27 сентября 2019

0 голосов

1 ответ

Почему ceph меняет статус на Err, когда еще есть свободное место на диске

Я недавно построил 3 узла Ceph кластеров.На каждом узле было семь жестких дисков по 1 ТБ для OSD,...

Gearon / 27 сентября 2019

0 голосов

1 ответ

Я хочу изменить тип данных столбца куста с bigint на datetime, но при этом появляется сообщение об ошибке ниже

изменить таблицу interface_detail CHANGE datetime DATE; Но я получаю следующую ошибку ......

Oye / 26 сентября 2019

0 голосов

1 ответ

Как вставить данные, которые вызывают ошибку, в отдельный файл при обработке остальной части столбца?

Я создаю программу, которая обрабатывает более 20 миллионов строк и более 50 столбцов данных.Я...

uncoded0123 / 26 сентября 2019

0 голосов

3 ответов

Как получить количество каждого значения в столбце?

У меня есть большой набор данных с гораздо большим количеством столбцов, чем этот, но я упрощу его...

G.T. / 25 сентября 2019

0 голосов

0 ответов

Apache Flume spooldir продолжает загружать один и тот же файл

изучение Apache Flume на CDH Quickstart VM 5.13.0.он запущен, файл COMPLETED token сгенерирован, но...

user1615666 / 25 сентября 2019

0 голосов

0 ответов

Рендеринг сотен тысяч кругов с реактивной конвой

Я работаю с response-konva для рендеринга больших генетических наборов данных, и я довольно новичок...

jVERM / 25 сентября 2019

0 голосов

1 ответ

Введите условия для выполнения действия координатора с помощью Oozie

Я новичок в слизи.Я хочу настроить мой координатор так, чтобы он выполнялся только в том случае,...

HamidOvic / 25 сентября 2019

0 голосов

1 ответ

Задание импорта Sqoop Hcatalog завершено, но в таблице отсутствуют данные

Я пытался интегрировать hcatalog с sqoop, чтобы импортировать данные из rdbms (оракула) в озеро...

Himanshu Aggarwal / 25 сентября 2019

0 голосов

0 ответов

Как разобрать гигабайты CSV, когда разделитель не одинаков во всех файлах?

В исследовательских целях мне нужно обработать несколько сотен гигабайт файлов CSV в базе данных...

ptitpou / 25 сентября 2019

0 голосов

0 ответов

Как исправить «WARN driver.MahoutDriver: sepdirectory.props не найден в classpath, будут использоваться только аргументы командной строки»

Я хочу выполнить следующую командную строку: mahout seqdirectory -i new / -o new / kmeansseqfiles...

NOOR ALI / 25 сентября 2019

0 голосов

1 ответ

Как сделать единый прогноз на основе модели упаковки

У меня есть следующая строка кода: # Setting the values for the number of folds num_folds = 10...

Leonardo Henriques / 25 сентября 2019