Я пытаюсь использовать https://github.com/elastic/elasticsearch-hadoop
Кажется, что с ним так медленно группировать.
(потому что он должен извлекать все записи и группировать по)
Вы могли бы сделать вызов rest-api, чтобы выполнить «агрегацию» в самом es и превратить результат в RDD, но это выглядит неловко.
Я хотел бы спросить, как другие люди используют библиотекусделать группу ... Это такое базовое требование и оно очень медленное.