Проблемы с производительностью при запросе FROM Hbase с использованием Spark TO Elasticsearch - PullRequest
0 голосов
/ 01 мая 2018

У меня есть огромные почти миллиарды строк в базе данных HBase. Я пишу задание Spark, которое эффективно извлекает данные из Hbase на основе диапазона дат и подталкивает эти данные к упругому поиску для индексирования в пакетах. Я использую соединитель hbase-spark с JavaHBaseContext spark SQL с dataframe для получения данных. Позже я подтолкну эти данные для индексирования в пакетах кasticsearch.

У меня сначала проблемы с производительностью при получении данных из Hbase, затем индексация и отправка данных вasticsearch. Пожалуйста, дайте мне знать, как мне эффективно выполнить вышеуказанную операцию.

P.S: Hbase поддерживается данными в S3

...