Question

Существуют некоторые условия фильтра для получения подсчета поднабора из данных эластичного поиска. Поскольку размер данныхasticsearch может превышать размер памяти Spark, я решил не загружать его данные в память Spark, а выполнять динамический запрос для каждого условия фильтра. (Я думал, что было бы быстрее получить количество документов с запросом эластичного поиска, чем рассчитывать на искровую память). Проблема заключается в том, что запрос эластичного поиска, который фильтрует данные эластичного поиска, должен быть внутри искры rdd, как показано ниже.

conditionCountRDD = conditionRDD( condition=> /* elasticsearch query with condition */)

Является ли это правильным способом делать запрос на поиск в spark rdd? если так, я должен использовать сессию искры, чтобы выполнить каждый запрос? или есть ли лучший способ сделать это?

Spark - динамический поисковый запрос

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark - динамический поисковый запрос

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов