Вопросы с тегом bigdata

0 голосов

0 ответов

Лучшая практика поиска ближайшего соседа в высоком измерении

Задача состоит в следующем.Нужно искать ближайших соседей в 100-мерном пространстве и в 100 млн....

bums3230 / 13 октября 2018

0 голосов

2 ответов

Разные результаты при различном подсчете за разные периоды времени

Я пытаюсь получить количество уникальных посетителей.Сначала я проверил его по общему количеству,...

noobeerp / 13 октября 2018

0 голосов

1 ответ

Кластер Hadoop находится в безопасном режиме (Namenode находится в безопасном режиме) Какие ресурсы мне необходимо освободить, чтобы удалить безопасный режим?

Я сделал снимок своего кластера.Вот мои выводы: Safe mode is ON Configured Capacity: 47430737653760...

Rishabh Dixit / 13 октября 2018

0 голосов

2 ответов

Как я могу загрузить только часть Redux Store в приложении React?

Мой технический руководитель дал мне задачу разработать способ загрузки только тех частей магазина,...

Amen Ra / 12 октября 2018

0 голосов

1 ответ

Эффективно создать матрицу из кадра данных для большого набора данных

Я пытаюсь создать матрицу из большого кадра данных.Вот пример фрейма данных df <- data

Miguel A. Friginal / 11 октября 2018

0 голосов

1 ответ

Где хранятся метаданные каталога Spark?

Пытался получить точное представление о том, как API-интерфейс каталога Spark хранит метаданные. Я...

V-Lamp / 11 октября 2018

0 голосов

0 ответов

Как получить сведения о задании Jenkins (задания создаются внутри папок / подпапок) с помощью Talend OS для BD

Я использую talend open studio для инструмента BD и jenkins.Основываясь на таланде, я вытащил...

user3114967 / 11 октября 2018

0 голосов

1 ответ

Сбой приложения YARN после отправки при запуске любого jar mapreduce

Вот снимок ошибки: [hduser@secondary ~]$ yarn jar test_word_count.jar com.test.wordc.WordCount...

Rishabh Dixit / 11 октября 2018

0 голосов

0 ответов

создание таблиц кустов на наборах данных sas

Мы получаем несколько наборов данных SAS из источника.Эти файлы обычно имеют формат .sas7bat.Я...

user10438333 / 11 октября 2018

0 голосов

1 ответ

Лучшая база данных больших данных для временных рядов

Я ищу лучшую базу данных для моего проекта больших данных.Мы собираем данные с некоторых датчиков.В...

doshu / 10 октября 2018

0 голосов

0 ответов

Есть ли система управления данными для индустрии общественного питания

Ресторан, в котором я работаю, хотел бы подсчитать количество заказов в системе, записать...

Judy.Pang / 10 октября 2018

0 голосов

1 ответ

Python - builtins.MemoryError: в программе для подсчета слов в большом текстовом файле

Это программа для подсчета слов в большом текстовом файле.Я считаю слова и отображаю 20 наиболее...

Matt Heey / 09 октября 2018

0 голосов

0 ответов

Проблема в приложении Spark при работе в режиме динамического размещения

У меня есть приложения spark (2.0.1), развернутые в кластере Hadoop с версией 2.7.0 (я использую...

Nguyen Quang Huy / 09 октября 2018

0 голосов

3 ответов

Apache Cassandra Чтение объяснений

В настоящее время я управляю кластером percona xtradb, состоящим из 5 узлов, каждый день...

doshu / 09 октября 2018

0 голосов

0 ответов

Как обнаружить повтор более удобно из большого набора данных?

Текущий процесс следующий: 1. ПОЛУЧИТЕ длину номера 24. 2. если число повторяется в текущем наборе...

Jack he / 09 октября 2018

0 голосов

1 ответ

Удалите ненужные записи из BIG-файла, используя Python или Map Reduce.

У меня есть 37 млн. Записей в исходном файле, но у меня есть только 3000 записей. Я хочу удалить...

Anbu / 08 октября 2018

0 голосов

1 ответ

читать данные за каждые 100 дней, пока мы не получим полные данные в улье

Я копирую данные из prod для тестирования в целях тестирования в улье, используя скрипт bash.когда...

kathiravan / 08 октября 2018

0 голосов

0 ответов

Как объединить 2 больших стола в Фениксе?

Ошибка: Обнаружено исключение в выполнении подплана [0] (состояние =, код = 0). Причина: org.Apache

Hadoop Developer / 08 октября 2018

0 голосов

2 ответов

Какую версию SBT я должен установить, чтобы упаковать, собрать программы Spark 1.6

Я использую версию cloudera 5.13.0 и spark 1.6.0.Если я хочу использовать инструмент sbt внутри...

PraveenK / 07 октября 2018

0 голосов

0 ответов

Озера данных и хранилища объектов

Что вы думаете о внедрении Data Lakes с использованием хранилищ объектов, и не только в публичном...

Marco Reis / 05 октября 2018

0 голосов

0 ответов

я хочу загрузить данные JSON в базу данных MySQL, но это занимает слишком много времени

Я хочу сохранить данные файла JSON в базе данных MySQL, но это занимает слишком много времени

shahrukh ijaz / 04 октября 2018

0 голосов

3 ответов

искра - условные выражения внутри выбора

Я выбираю два Column s из Dataframe col1 и col2. df.select((col("a")+col("b"))

user10438333 / 04 октября 2018

0 голосов

1 ответ

ключ слияния sqoop, создающий несколько файлов деталей вместо одного, который не предназначен для использования ключа слияния

В идеале, когда мы запускаем инкрементное без merge-key, это создаст новый файл с добавленным...

RushHour / 04 октября 2018

0 голосов

2 ответов

Получить данные из озера данных в аналитическую систему

Мы создали новое озеро данных в файловой системе Hadoop.Данные хранятся в виде ORC.В настоящее...

Ranjeet Kumar / 04 октября 2018

0 голосов

1 ответ

Огромное количество идентификаторов в предложении IN в запросе Hadoop Hive

Qn: Какой лучший способ получить один столбец (скажем, item_name) из таблицы, содержащей 9...

so-random-dude / 03 октября 2018