Кэш AppFabric кажется нестабильным - PullRequest
8 голосов
/ 20 января 2011

Мы пытаемся использовать распределенный кеш AppFabric.После долгих перемоток с не доменными серверами мы наконец поместили их в домен, и установка / настройка стала немного проще.Мы приступили к работе после преодоления множества ошибок, большинство из которых, кажется, тривиально, включают некоторое тестовое или более описательное сообщение об ошибке в AppFabric.«Временная ошибка» ничего не объясняет ...

Но все еще есть проблемы.

Мы настроили 3 сервера, один из которых является «ведущим».Наконец-то мы установили работоспособность кэша, и мы подтвердили это, указав балансировщик сетевой нагрузки на один сервер за раз, подтверждая, что мы можем установить кэш на одном сервере, а получить его на другом.

Затем я перезапустил службу кэширования AppFabricна всех серверах и вдруг не работает.Get-CacheHost сообщает, что они работают, но мы получаем исключения, такие как:

ErrorCode<ERRCA0018>:SubStatus<ES0001>:The request timed out
ErrorCode<ERRCA0017>:SubStatus<ES0001>:There is a temporary failure. Please retry later.

Почему это условие ошибки возникает при простом перезапуске служб?AppFabric Cache действительно готов к использованию?Что произойдет, если сервер отключится?Длинные таймауты?Зависит ли мы от того, что «ведущий» сервер работает?

Я подозреваю, что он восстановится через 5-10 минут R & R.Кажется, он иногда возвращается сам по себе.

Обновление: Оно появилось через несколько минут.Теперь мы проверили, удалив один сервер из кластера, и это привело к длительному таймауту и, наконец, к исключению.

1 Ответ

7 голосов
/ 27 января 2011

Мы отлаживали это в течение некоторого времени, и я делюсь тем, что мы нашли до сих пор.

  • UAC в Windows 2008 фактически блокирует доступ к локальному компьютеру, поэтому команды на локальный компьютер не будут выполнены,Запустите PowerShell от имени администратора или полностью отключите UAC, чтобы обойти.
  • Простое изменение файла конфигурации вручную не будет работать.Вам необходимо использовать команды экспорта и импорта.
  • Брандмауэры представляют собой серьезную проблему, так как установщик открывает диапазон портов 222 *, но инструменты PowerShell используют другие службы Windows.Отключение брандмауэра на всех серверах ( не рекомендуется ) решило проблему.
  • Если сервер будет удален из кластера, то перед тем, как кластер сможет снова работать, будет установлен первоначальный таймаут.
  • После перезагрузки кластер использует 2-5 минут для восстановления.
  • Если перезапуск и один сервер недоступны, время запуска увеличивается.
  • Если сервер, содержащий общий ресурсДоступ к файлу для конфигурации недоступен, сервисы не запустятся.Мы попытались решить эту проблему, предоставив каждому серверу личный ресурс.
...