Я пытаюсь создать стол с нарезкой в Улей в Клодере.Но нормальная таблица создается без каких-либо...
У меня есть такой кадр данных, и я хочу продублировать строку n раз, если столбец n больше единицы:...
Я набор данных фильма и набор данных рейтинга, как это movies.txt MovieID – Title – Genres ratings
Я не могу расширить объект ведения журнала, потому что это вид частного, как я могу его решить?
Используя IntelliJIdea и Maven, я пытаюсь взять таблицу csv и преобразовать ее в таблицу Hive (или...
Данные в нашем хранилище управляемы.Со временем мы накопим большой объем.Невозможно сохранить такие...
Мне нужно получить данные о погоде почти из 200 немецких городов. Суть в том, что мне нужно...
Поэтому я пытаюсь найти способ слияния двух строк на основе 1-го столбца и сохранения большего...
В Apache Spark я знаю, что когда я использую некоторые функции преобразования, все функции...
Я использую Python Pandas Dataframe для анализа данных некоторых журналов.У меня есть CSV с чем-то...
Как масштабировать функцию scikit-learn MinMaxScaler, если у меня большой массив?Итак, давайте...
Этот вопрос может быть слишком общим, но я чувствую, что он возникает снова и снова в моей работе и...
Я работаю над рекомендательным двигателем.Я уже тестировал основанную на пользователях совместную...
Я новичок в pyspark и пытаюсь понять, как работает PageRank.Я использую Spark 1.6 в Jupyter на...
Где производится сортировка в Hadoop Mapreduce Jobs, когда мы пишем программу?Я испытываю трудности...
Я импортировал большие данные в MySQL Workbench, затем мой компьютер остановился, поэтому я...
Я установил ImmenseDB.Теперь я хочу создать новую базу данных. Как я могу создать новую базу данных...
Я пытаюсь запустить пример кода PCA pyspark из https://spark.apache.org/docs/2.2.0/ml-features
У меня есть такая таблица col ----- A,B col может быть строкой с запятой или массивом.У меня есть...
Мне нужно вычислить несколько агрегатов для каждой таблицы в базе данных Hive.Мой код выглядит...
У меня есть 100 таблиц в базе данных.Я хочу импортировать только 5 таблиц.Я не могу / не использую...
У меня есть таблица, описание которой выглядит следующим образом: # col_name data_type comment id...
Cassandra использует согласованный хэш для управления данными, и после того, как мы используем...
У меня есть требование для вычисления различных значений для большого количества столбцов (> 20...
Я использую сервер jena-fuseki в Ubuntu 16.04.Я пытаюсь загрузить набор данных, как показано ниже: