Каков наилучший способ чтения из существующих экземпляров Elasticsearch в Pyspark, предотвращающий ошибки сопоставления / анализа? - PullRequest
0 голосов
/ 15 июня 2019

У меня есть много индексов Elasticsearch со многими полями, которые я хочу использовать в Spark. Поскольку для этих индексов не указано никакого отображения, использование данных приводит к множественным ошибкам синтаксического анализа. Каков наилучший способ подключения к Elasticsearch, предотвращающий любые ошибки сопоставления / анализа?

Я уже пытался проанализировать несколько столбцов как массивы, но это не работает, так как имеется много вложенных данных.

Некоторые ошибки выглядят странно. Я, например, понятия не имею, почему Spark не может проанализировать значение метки времени как строку.

В моем сценарии у меня много экземпляров Elasticsearch; Я не могу изменить их сам. Более того, невозможно создать сопоставления для каждого источника данных вручную, так как полей слишком много.

Возможно ли использовать esRDD вместо spark.read.format()?

У меня нет кода для обмена, потому что это проблема почти со всеми экземплярами Elasticsearch.

Мне бы очень хотелось узнать, как я могу подключиться к существующим базам данных Elasticsearch, не тратя часы на устранение проблем с отображением / анализом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...