Я изучаю Map Reduce ... но у меня нет опыта работы с Python ... Я пытаюсь это: Суммировать...
У меня есть источники данных, которые предоставляют информацию о дате в формате ГГГГММ, например,...
У меня есть проблема, когда я должен принять большой поток данных, где каждый элемент - это человек...
Как я могу получить доступ к расширенным атрибутам файла или каталога HDFS в моем коде Java?Любые...
Я использовал интерфейс командной строки для прямого запуска INSERT OVERWRITE LOCAL DIRECTORY...
Мы используем mongo (самодостаточный, а не управляемый сервис) в качестве хранилища данных, но наш...
Я получаю следующую ошибку, связанную с ошибкой ключа.У меня большой набор данных (в области 10...
Я нашел похожую тему: Понимание кэширования Spark но это все еще не точный мой вопрос.Давайте...
Я ищу библиотеку Java, способную обрабатывать большой набор данных наилучшим образом с точки зрения...
Я работаю в проекте с большим количеством таблиц, которые хранятся в HTML.В процессе очистки мне...
Я пытаюсь понять, какое влияние может оказать кодирование стирания на чтение производительности...
Я хочу отобразить первый день месяца для существующего столбца, например, 16.12.2008. Я хочу, чтобы...
У меня есть простое приложение spark, которое читает данные csv и затем записывает их в avro. Это...
каждый раз, когда я перезагружал рой, у меня эта проблема java.io.IOException: Incompatible...
Как переименовать TABLE в запросе Big, используя StandardSQL или LegacySQL. Я пытаюсь с StandardSQL...
Мое Java-приложение потребляет данные в реальном времени, а затем публикует их в файл ORC на S3 ....
Я пытаюсь проверить действие оболочки oozie в моем cloudera vm (quickstart vm). При запуске...
У меня очень большая сеть, основанная на уникальных вершинах 100K и ребрах 500M (примечание: все...
Я пытаюсь загрузить файл, используя Pyspark, как показано ниже from pyspark.sql import SparkSession...
У меня есть 10gb CSV-файл с идентификаторами пользователей и полов, которые иногда дублируются....
Я новичок в Spark & Scala и получил исключение после вызова saveAsTextFile ().Надеюсь, что кто-то...
Я читал о HBase, и общим описанием для него была «столбчатая база данных». Что это на самом деле...
У меня есть экземпляр EC2, который открывает файл json, читает каждую строку и выполняет операцию...
Везде говорится, что Spark и Flink должны заменить Hadoop MapReduce, потому что они лучше работают...
Я мог бы найти много ответов, связанных с этой темой, но не смог найти что-то связанное со...