Spark - динамический поисковый запрос - PullRequest
0 голосов
/ 30 апреля 2019

Существуют некоторые условия фильтра для получения подсчета поднабора из данных эластичного поиска. Поскольку размер данныхasticsearch может превышать размер памяти Spark, я решил не загружать его данные в память Spark, а выполнять динамический запрос для каждого условия фильтра. (Я думал, что было бы быстрее получить количество документов с запросом эластичного поиска, чем рассчитывать на искровую память). Проблема заключается в том, что запрос эластичного поиска, который фильтрует данные эластичного поиска, должен быть внутри искры rdd, как показано ниже.

conditionCountRDD = conditionRDD( condition=> /* elasticsearch query with condition */)

Является ли это правильным способом делать запрос на поиск в spark rdd? если так, я должен использовать сессию искры, чтобы выполнить каждый запрос? или есть ли лучший способ сделать это?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...