У меня есть около 200 000 строк кортежей в моем Пандасе.Я ввел эти данные в упругий поиск.Теперь, когда я запускаю программу, она должна проверить, вставлены ли в нее текущие данные, уже находящиеся в упругом поиске, если их нет.
Я бы рекомендовал не беспокоиться об этом и просто загрузить все в Elasticsearch.Пока ваши _id согласованы, существующие документы будут перезаписаны, а не дублированы.Поэтому просто укажите _id для каждого документа, и все в порядке, помощники bulk в клиенте elasticsearch-py все поддерживают установку значения _id для каждого документа.
_id
bulk
elasticsearch-py