Существуют некоторые условия фильтра для получения подсчета поднабора из данных эластичного поиска. Поскольку размер данныхasticsearch может превышать размер памяти Spark, я решил не загружать его данные в память Spark, а выполнять динамический запрос для каждого условия фильтра. (Я думал, что было бы быстрее получить количество документов с запросом эластичного поиска, чем рассчитывать на искровую память). Проблема заключается в том, что запрос эластичного поиска, который фильтрует данные эластичного поиска, должен быть внутри искры rdd, как показано ниже.
conditionCountRDD = conditionRDD( condition=> /* elasticsearch query with condition */)
Является ли это правильным способом делать запрос на поиск в spark rdd? если так, я должен использовать сессию искры, чтобы выполнить каждый запрос? или есть ли лучший способ сделать это?