Вопросы с тегом bigdata

0 голосов

1 ответ

Невозможно создать ведра в Hive в cloudera

Я пытаюсь создать стол с нарезкой в Улей в Клодере.Но нормальная таблица создается без каких-либо...

Md Firdaus Alam / 01 июня 2018

0 голосов

3 ответов

Pyspark: как продублировать строку n раз в датафрейме?

У меня есть такой кадр данных, и я хочу продублировать строку n раз, если столбец n больше единицы:...

Julien Thillard / 31 мая 2018

0 голосов

0 ответов

Как найти Топ 10 самых просматриваемых фильмов с их названием в mapreduce

Я набор данных фильма и набор данных рейтинга, как это movies.txt MovieID – Title – Genres ratings

Mandrek / 31 мая 2018

0 голосов

1 ответ

Я не могу установить StreamingLogLevel в spark2

Я не могу расширить объект ведения журнала, потому что это вид частного, как я могу его решить?

J.F / 31 мая 2018

0 голосов

0 ответов

Класс не найден даже при импорте (Maven)

Используя IntelliJIdea и Maven, я пытаюсь взять таблицу csv и преобразовать ее в таблицу Hive (или...

Foxlooo / 29 мая 2018

0 голосов

1 ответ

Как обрабатывать большие размеры хранилища в Корде?

Данные в нашем хранилище управляемы.Со временем мы накопим большой объем.Невозможно сохранить такие...

Raj / 29 мая 2018

0 голосов

1 ответ

MongoDB для огромного количества данных

Мне нужно получить данные о погоде почти из 200 немецких городов. Суть в том, что мне нужно...

Vitor Villar / 28 мая 2018

0 голосов

0 ответов

Слияние строк в Excel с общим столбцом (A) и сохранение наибольшего значения в столбце (D)

Поэтому я пытаюсь найти способ слияния двух строк на основе 1-го столбца и сохранения большего...

user3596237 / 28 мая 2018

0 голосов

1 ответ

Создание DAG в Apache Spark

В Apache Spark я знаю, что когда я использую некоторые функции преобразования, все функции...

shubham / 28 мая 2018

0 голосов

1 ответ

DataPrame Python Pandas заменяет значение ячейки значением другой ячейки того же сеанса

Я использую Python Pandas Dataframe для анализа данных некоторых журналов.У меня есть CSV с чем-то...

Arhiliuc Cristina / 28 мая 2018

0 голосов

1 ответ

Scikit-Learn MinMax не масштабируется

Как масштабировать функцию scikit-learn MinMaxScaler, если у меня большой массив?Итак, давайте...

jmamath / 26 мая 2018

0 голосов

1 ответ

Расширьте сетку (или набор мощности) с ограничениями

Этот вопрос может быть слишком общим, но я чувствую, что он возникает снова и снова в моей работе и...

wolfsatthedoor / 26 мая 2018

0 голосов

1 ответ

Персонализированная совместная фильтрация

Я работаю над рекомендательным двигателем.Я уже тестировал основанную на пользователях совместную...

Geek88 / 25 мая 2018

0 голосов

1 ответ

Ошибки в PageRank GraphFrames

Я новичок в pyspark и пытаюсь понять, как работает PageRank.Я использую Spark 1.6 в Jupyter на...

Vikram Devatha / 25 мая 2018

0 голосов

1 ответ

Где производится сортировка в MapReduce Job?

Где производится сортировка в Hadoop Mapreduce Jobs, когда мы пишем программу?Я испытываю трудности...

Harshali Patel / 25 мая 2018

0 голосов

0 ответов

Служба MySQL57 на локальном компьютере запускается, а затем останавливается после остановки компьютера при импорте больших данных

Я импортировал большие данные в MySQL Workbench, затем мой компьютер остановился, поэтому я...

Alfredo Dimaapi / 25 мая 2018

0 голосов

1 ответ

Как создать новую базу данных в ImmenseDB?

Я установил ImmenseDB.Теперь я хочу создать новую базу данных. Как я могу создать новую базу данных...

D Nandi / 24 мая 2018

0 голосов

1 ответ

Pyspark PCA с большим количеством функций

Я пытаюсь запустить пример кода PCA pyspark из https://spark.apache.org/docs/2.2.0/ml-features

sh.jeon / 24 мая 2018

0 голосов

1 ответ

Проверьте подмножество, используя строку или массив в Impala

У меня есть такая таблица col ----- A,B col может быть строкой с запятой или массивом.У меня есть...

HP. / 23 мая 2018

0 голосов

0 ответов

PySpark перезапустить SparkContext в случае сбоя

Мне нужно вычислить несколько агрегатов для каждой таблицы в базе данных Hive.Мой код выглядит...

sergionsk8 / 22 мая 2018

0 голосов

1 ответ

Синтаксис в Sqoop import 5 из 100 таблиц, представленных в базе данных - не использовать ключевое слово exclude?

У меня есть 100 таблиц в базе данных.Я хочу импортировать только 5 таблиц.Я не могу / не использую...

K Rakesh patra / 22 мая 2018

0 голосов

1 ответ

как получить доступ к значениям карты и ключам, хранящимся во фрейме данных в Scala Spark

У меня есть таблица, описание которой выглядит следующим образом: # col_name data_type comment id...

Romal Jaiswal / 22 мая 2018

0 голосов

1 ответ

Как запросить Cassandra с определенного узла и получить данные только от этого узла?

Cassandra использует согласованный хэш для управления данными, и после того, как мы используем...

user17963 / 22 мая 2018

0 голосов

2 ответов

Оптимизировать отдельные значения на большом количестве столбцов

У меня есть требование для вычисления различных значений для большого количества столбцов (> 20...

breakingduck / 22 мая 2018

0 голосов

1 ответ

Ошибка fuseki - исключение инициализации файла

Я использую сервер jena-fuseki в Ubuntu 16.04.Я пытаюсь загрузить набор данных, как показано ниже:

Aman / 21 мая 2018