You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Describe the bug
我们遇到一个问题,由于复杂的原因,在k8s的一个节点(运行业务的节点)由于容器运行时故障,导致整个节点NotReady,(并发导致的一些问题,fd满了、高cpu、系统调用失败),机器上的服务在nacos中没有下线,但是业务发生了故障,故障环境没有有效的日志和监控保留。
Describe the bug
我们遇到一个问题,由于复杂的原因,在k8s的一个节点(运行业务的节点)由于容器运行时故障,导致整个节点NotReady,(并发导致的一些问题,fd满了、高cpu、系统调用失败),机器上的服务在nacos中没有下线,但是业务发生了故障,故障环境没有有效的日志和监控保留。
我们尝试模拟了一些类似节点故障的场景没有很有效的模拟出故障。
我们有一些疑问:
我们发现了一些疑问,看到节点中出现DNS解析故障。如果是这种场景,可能会影响业务,但是nacos通过ip进行注册,应该不会收到影响,就不能很有效的检测这类故障进行及时下线。
我猜想了其他类似故障场景:
比如客户端业务线程死锁、等其他场景导致业务线程不可能。这种场景下应该都不影响nacos心跳,但是业务是不正常的,无法有效的切换服务。
另外我看到永久节点支持主动探测包含自定义HTTP接口,当然可以让业务自定义实现这类接口实现探活解决这类问题。但是我看永久节点好像不太适合在业务实例中使用?
尽管这类故障可能出现概率很低很低,但是有没有推荐的解决方法。
Expected behavior
A clear and concise description of what you expected to happen.
Actually behavior
A clear and concise description of what you actually to happen.
How to Reproduce
Steps to reproduce the behavior:
Desktop (please complete the following information):
version: nacos 1.3.0
Additional context
Add any other context about the problem here.
The text was updated successfully, but these errors were encountered: