Cassandra 3.11.1, кластер из 5 узлов
- Все работает хорошо до вчерашнего дня
- Но вчера (без видимой причины) мы начинаем получать случайное исключение тайм-аута чтения / записи.Любой запрос может быть выполнен в течение 1 мс, а после этого повторите и Timeout, повторите и снова 1 мс - поэтому приложение не может работать.
Я не администратор (разработчик), но я начинаю искать что-тов nodetool и взгляните на tpstats
и его удаленную часть, и то, что я вижу.
Message type Dropped
READ 396
RANGE_SLICE 485
_TRACE 496047
HINT 0
MUTATION 1139
COUNTER_MUTATION 0
BATCH_STORE 28
BATCH_REMOVE 0
REQUEST_RESPONSE 0
PAGED_RANGE 0
READ_REPAIR 0
Для меня - это знак того, что что-то очень и очень неправильно, но я не могу понять, как его диагностировать большеподробно, что является причиной и как ее исправить.
После некоторых экспериментов мы видим, что тайм-аут вызван, если токен принадлежит определенному узлу, например select id from mytable where it = '<token from invalid node>'
- он будет завершаться с таймаутом каждые 5 запусков.
Есть где нибудь предложения ???