Вопросы с тегом bigdata

0 голосов

0 ответов

Как объединить tmysqlinput и tMongoDBInput с большим количеством данных

Я имею дело с заданием Talend Big Data и не могу найти решение. pb: я запрашиваю некоторые данные в...

user1027454 / 05 июня 2019

1 голос

0 ответов

Существует ли автономное решение для метастазов Hive 2?

В Hive 3 есть отдельное хранилище метастазов, которое, кажется, отлично работает ... хотя для...

John Humphreys - w00te / 05 июня 2019

0 голосов

1 ответ

Как узнать схему из тонны грязных структурированных данных?

У меня огромный набор данных с грязной структурированной схемой. Скажем, одни и те же поля данных...

Louis Luk / 05 июня 2019

0 голосов

1 ответ

Работа с огромными данными API-PLATFORM

У меня есть сущность под названием Companies, которая имеет отношение OneToMany к другой сущности с...

Pedro Monteiro / 04 июня 2019

0 голосов

0 ответов

Атомное переименование файла в HDFS

Я знаю, что переименование не является атомарным в Hadoop. Мы создаем новый файл и удаляем старый....

omar kh / 03 июня 2019

0 голосов

1 ответ

Повторяющиеся задания создаются в DAG для того же действия в Spark

У меня есть задание потоковой передачи, в котором я получаю данные из очереди сообщений и...

AV94 / 03 июня 2019

0 голосов

0 ответов

Как я могу узнать и построить график среднего значения по зональной диафрагме?

У меня есть .nc файл с метеорологическими данными. Он содержит три ключа (широта, долгота и время)...

liluen / 02 июня 2019

1 голос

2 ответов

Хранение больших данных и запросы по сравнению с традиционными реляционными / нереляционными БД

Я начинающий старший специалист по CS в крупном государственном университете, и я работаю стажером...

Will / 01 июня 2019

0 голосов

0 ответов

ODI выдает ошибку при обработке оператора: /usr/lib/hive/lib/hive-contrib.jar не существует

У меня есть три виртуальные машины, база данных Oracle, сервер Hadoop с Hive и Orcale Data...

th12 / 31 мая 2019

4 голосов

2 ответов

Есть ли более быстрый способ чтения больших данных, чем fread ()?

Привет, во-первых, я уже ищу в стеке и в гугле и нашёл такие посты: Быстрое чтение очень больших...

Gainz / 31 мая 2019

3 голосов

1 ответ

Как исправить проблемы с соединением при отправке тяжелых файлов в таблицу улья

У меня есть файлы в формате hdf, которые я хочу поместить в таблицу Hive.Операция выполняется...

Mathias L. / 31 мая 2019

0 голосов

0 ответов

Получить полный твит от TwitterSource Flink

Я пытался использовать потоковый твитер, используя apache-flink. но результат гайки полон вот так:...

Abdul Haris Djafar / 31 мая 2019

1 голос

1 ответ

Как заполнить таблицу Hive всеми временными метками (86400) за день

Я хочу таблицу улья с 4 столбцами <date,key,Timestamp,count>.Здесь Ключи могут быть кратными,...

Akshat Chaturvedi / 31 мая 2019

1 голос

1 ответ

Как подключиться к Apache spark / hadoop из VBA

Я знаком с SQL (особенно postgres) и VBA, но на стороне искры Apache, я новичок, но кажется, что он...

Gin / 30 мая 2019

0 голосов

0 ответов

Запись потока больших данных в Parquet с Python

Я хочу записать поток больших данных в файл паркета с Python. Мои данные огромны, и я не могу...

Mohsen Laali / 30 мая 2019

0 голосов

1 ответ

Как HBase / Bigtable можно использовать для анализа данных?

Концептуально, HBase / Bigtable являются хранилищами ключей.Много раз при чтении документации обоих...

Adelin / 30 мая 2019

0 голосов

1 ответ

Значение столбца становится равным NULL при создании таблицы Hive из файла BSON

Я создал таблицу Hive (3.1.2) из дампа файла BSON из MongoDB (4.0). После создания таблицы я...

Martin Peng / 29 мая 2019

0 голосов

0 ответов

Как восстановить файл индекса для gzipped vcf файла?

У меня большой файл vcf с геномными данными (330 ГБ) и файл индекса, который сопровождает его.Я...

Sean / 28 мая 2019

0 голосов

0 ответов

Каковы некоторые из наиболее эффективных рабочих процессов для обработки «больших данных» (250+ ГБ) из баз данных postgreSQL?

Я создаю сценарий, который будет обрабатывать более 250+ ГБ данных из одной таблицы postgreSQL

Tom Hood / 28 мая 2019

0 голосов

1 ответ

Как использовать исторический набор данных для обогащения Flink DataStream

Я работаю над проектом в реальном времени с Flink, и мне нужно дополнить состояние каждой карты...

M_Gh / 28 мая 2019

0 голосов

0 ответов

Как указать версию spark для использования Talend, если на кластере mapr установлены 2 разные версии

У меня есть кластер Mapr в версии 6.0 с искрой 2.2.1 на нем. Я должен выполнить задания Talend...

Pimouss / 28 мая 2019

0 голосов

1 ответ

Обновите отдельный документ в mongodb, используя spark с java

Я только начал apache-spark с Java. В коллекции сохранено много документов. Я хочу найти документ...

Arvind Rajput / 28 мая 2019

0 голосов

1 ответ

Как сохранить строковые данные в таблице BIGSQL с длиной, превышающей VARCHAR (32 КБ)

Данные, превышающие 32762 символа, усекаются при загрузке данных в мою таблицу BigSQL. Моя таблица...

tavishbhagat / 28 мая 2019

2 голосов

3 ответов

Мне нужно пропустить три строки из кадра данных при загрузке из файла CSV в Scala

Я загружаю свой CSV-файл во фрейм данных, и я могу это сделать, но мне нужно пропустить начальные...

Saikishore Namburi / 28 мая 2019

0 голосов

1 ответ

Как я могу загрузить электронную таблицу XLSX с 52,4 МБ в BigQuery?

Я пытаюсь проанализировать миллионы поисковых запросов в интернет-магазине и объединить их в Google...

Nes Elm / 27 мая 2019