Question

У меня есть огромные почти миллиарды строк в базе данных HBase. Я пишу задание Spark, которое эффективно извлекает данные из Hbase на основе диапазона дат и подталкивает эти данные к упругому поиску для индексирования в пакетах. Я использую соединитель hbase-spark с JavaHBaseContext spark SQL с dataframe для получения данных. Позже я подтолкну эти данные для индексирования в пакетах кasticsearch.

У меня сначала проблемы с производительностью при получении данных из Hbase, затем индексация и отправка данных вasticsearch. Пожалуйста, дайте мне знать, как мне эффективно выполнить вышеуказанную операцию.

P.S: Hbase поддерживается данными в S3

Проблемы с производительностью при запросе FROM Hbase с использованием Spark TO Elasticsearch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблемы с производительностью при запросе FROM Hbase с использованием Spark TO Elasticsearch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы