Ошибки DNS в кластере k8s на AWS, созданном с помощью kops - PullRequest
0 голосов
/ 01 сентября 2018

Мы создали кластер k8s с kops на AWS, и мы получаем недетерминированные ошибки DNS (имя хоста неизвестно), мы заменили kube-dns на CoreDNS, и мы все еще получаем эту ошибку, ошибки относятся к DNS-именам внутреннего кластера k8s услуги, а также внешние DNS-имена. ошибка обычно исходит от всех пакетов на различные имена в течение короткого периода времени. мы отлаживаем это неделями. Я ценю любую помощь.

Конфиг конфигурации:

# Please edit the object below. Lines beginning with a '#' will be ignored,
# and an empty file will abort the edit. If an error occurs while saving this file will be
# reopened with the relevant failures.
#
apiVersion: kops/v1alpha2
kind: Cluster
metadata:
  name: cluster-name
spec:
  additionalPolicies:
    node: "[\n    {\n        \"Effect\": \"Allow\",\n        \"Action\": [\n          \"cloudwatch:GetMetricData\",\n
      \         \"cloudwatch:GetMetricStatistics\",\n          \"cloudwatch:ListMetrics\",\n
      \         \"cloudwatch:PutMetricData\",\n          \"autoscaling:DescribeAutoScalingGroups\",\n
      \         \"autoscaling:DescribeAutoScalingInstances\",\n          \"autoscaling:SetDesiredCapacity\",\n
      \         \"autoscaling:DescribeTags\",\n          \"autoscaling:TerminateInstanceInAutoScalingGroup\",\n
      \         \"sqs:*\"\n        ],\n        \"Resource\": [\n            \"*\"\n
      \       ]\n    },\n    {\n        \"Effect\": \"Allow\",\n        \"Action\":
      [\n            \"SNS:Publish\",\n\"SNS:CreateTopic\"\n        ],\n        \"Resource\":
      \"arn:aws:sns:us-east-1:333449552137:XXX-*\",\n        \"Principal\":
      {\n           \"AWS\": [ \n               \"333449552137\"\n           ]\n        }\n
      \   }\n]\n"
  api:
    loadBalancer:
      type: Internal
  authorization:
    rbac: {}
  channel: stable
  cloudConfig: {}
  cloudProvider: spotinst
  configBase: s3://via-k8s-state-lab/cluster-name
  etcdClusters:
  - etcdMembers:
    - instanceGroup: master-us-east-1a-1
      name: "1"
    - instanceGroup: master-us-east-1a-2
      name: "2"
    - instanceGroup: master-us-east-1a-3
      name: "3"
    name: main
  - etcdMembers:
    - instanceGroup: master-us-east-1a-1
      name: "1"
        - instanceGroup: master-us-east-1a-2
      name: "2"
    - instanceGroup: master-us-east-1a-3
      name: "3"
    name: events
  iam:
    allowContainerRegistry: true
    legacy: false
  kubernetesApiAccess:
  - 0.0.0.0/0
  kubernetesVersion: 1.10.4
  masterInternalName: api.internal.cluster-name
  masterPublicName: api.cluster-name
  networkCIDR: 10.251.0.0/17
  networking:
    calico: {}
  nonMasqueradeCIDR: 100.64.0.0/10
  sshAccess:
  - 0.0.0.0/0
  subnets:
  - cidr: 10.251.16.0/20
    name: us-east-1a
    type: Private
    zone: us-east-1a
  - cidr: 10.251.32.0/20
    name: us-east-1b
    type: Private
    zone: us-east-1b
  - cidr: 10.251.0.0/23
    name: utility-us-east-1a
    type: Utility
    zone: us-east-1a
  - cidr: 10.251.2.0/23
    name: utility-us-east-1b
    type: Utility
    zone: us-east-1b
  topology:
    dns:
      type: Public
    masters: private
    nodes: private

Если мы посмотрим на /var/log/kern.log на одном из узлов, у которых были проблемы с DNS, мы увидим следующее enter image description here

Ошибки NETDEV_UP и NETDEV_CHANGE, это означает, что сетевой интерфейс отключается и работает

Пока не уверен, как это повлияет на DNS

Любая помощь будет очень ценной

...