Задача состоит в следующем.Нужно искать ближайших соседей в 100-мерном пространстве и в 100 млн....
Я пытаюсь получить количество уникальных посетителей.Сначала я проверил его по общему количеству,...
Я сделал снимок своего кластера.Вот мои выводы: Safe mode is ON Configured Capacity: 47430737653760...
Мой технический руководитель дал мне задачу разработать способ загрузки только тех частей магазина,...
Я пытаюсь создать матрицу из большого кадра данных.Вот пример фрейма данных df <- data
Пытался получить точное представление о том, как API-интерфейс каталога Spark хранит метаданные. Я...
Я использую talend open studio для инструмента BD и jenkins.Основываясь на таланде, я вытащил...
Вот снимок ошибки: [hduser@secondary ~]$ yarn jar test_word_count.jar com.test.wordc.WordCount...
Мы получаем несколько наборов данных SAS из источника.Эти файлы обычно имеют формат .sas7bat.Я...
Я ищу лучшую базу данных для моего проекта больших данных.Мы собираем данные с некоторых датчиков.В...
Ресторан, в котором я работаю, хотел бы подсчитать количество заказов в системе, записать...
Это программа для подсчета слов в большом текстовом файле.Я считаю слова и отображаю 20 наиболее...
У меня есть приложения spark (2.0.1), развернутые в кластере Hadoop с версией 2.7.0 (я использую...
В настоящее время я управляю кластером percona xtradb, состоящим из 5 узлов, каждый день...
Текущий процесс следующий: 1. ПОЛУЧИТЕ длину номера 24. 2. если число повторяется в текущем наборе...
У меня есть 37 млн. Записей в исходном файле, но у меня есть только 3000 записей. Я хочу удалить...
Я копирую данные из prod для тестирования в целях тестирования в улье, используя скрипт bash.когда...
Ошибка: Обнаружено исключение в выполнении подплана [0] (состояние =, код = 0). Причина: org.Apache
Я использую версию cloudera 5.13.0 и spark 1.6.0.Если я хочу использовать инструмент sbt внутри...
Что вы думаете о внедрении Data Lakes с использованием хранилищ объектов, и не только в публичном...
Я хочу сохранить данные файла JSON в базе данных MySQL, но это занимает слишком много времени
Я выбираю два Column s из Dataframe col1 и col2. df.select((col("a")+col("b"))
В идеале, когда мы запускаем инкрементное без merge-key, это создаст новый файл с добавленным...
Мы создали новое озеро данных в файловой системе Hadoop.Данные хранятся в виде ORC.В настоящее...
Qn: Какой лучший способ получить один столбец (скажем, item_name) из таблицы, содержащей 9...