Это мой первый опыт работы с k8s, и я немного разочарован.
У меня проблема в сети GKE.Например, я создал модуль Postgres и иногда (я использую Node.JS с Typeorm, но это не имеет значения) я получаю журналы ошибок об обрыве соединения.
И это происходит каждые 1-10 минут.
Я создал простой экземпляр Compute Engine с PostgreSQL на борту.У меня нет проблем, когда я использую этот экземпляр из API внутри GKE.
То же самое происходит с Ingress.
Я использую балансировщик нагрузки TCP (в том числе с nginx-ingress) и 1.13.5-gke.10 версия.
Что я уже пробовал:
- Я заново создал кластеры в разных зонах: европа-север-а, европа-север-в.Я не уверен насчет других регионов.
- Я пробовал кластеризованные / некластеризованные диаграммы Postgres.Это происходит со всеми коммуникациями, не только с Postgres.
- Я проверил модули kube-system, они не имеют ошибок и работают без перезапусков.Я не нашел каких-либо особых причин для проблем с сетью.
Вот такие журналы, которые я получаю (это для nginx):
2019/05/20 10:02:51 [error] 612#612: *15687 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: 10.0.0.23, server: domain.io, request: "POST / HTTP/2.0", upstream: "http://10.0.0.19:4000/", host: "domain.io:443"
Что я могу сделать?Я немного отчаялся.
ОБНОВЛЕНИЕ: я не уверен в этом, но как только я масштабирую развертывание до 1 реплики, у него перестают возникать проблемы.Я буду продолжать изучать это, чтобы увидеть, сработало ли это.