在网络异常或机器异常后,容器lost后无法自动恢复 #26
Labels
confirmed
issue is confirmed
enhancement
New feature or request
inner
issue comes from Tencent side
planning
issue is under planning
Milestone
目前mesos的机制:mesos-master与mesos-slave之间保持一条tcp长链接,master使用心跳的方式判断mesos-slave的存活状态。当出现网络异常、mesos-slave退出或机器异常的情况下,这条tcp连接会断开,此时mesos-master会判断mesos-slave lost,并上报给bcs-scheduler。
当网络正常或mesos-slave正常后,mesos-master会恢复与slave的tcp连接,并继续心跳机制。
mesos对这种lost之后重新连接之后的slave,会采取直接shutdown的操作,杀掉上面所有的task容器,这种机制给业务带来了一些不太友好的体验,因为如果是网络异常,此时应该是恢复管控而不是杀掉
The text was updated successfully, but these errors were encountered: