某医院HIS系统断连的运维案例

一、事件背景

二、医院基本情况

断连服务器为公司内部的一台HIS服务器,服务器地址为172.16.1.138。

用户经过用户汇聚-核心-防火墙-服务器汇聚,达到HIS系统服务器。

具体网络环境如下图:

image.png

网络关系与流程梳理

1、通过系统的NCD图,可以清晰的看到网络的逻辑联系关系。用户请求经虚拟数据库-中间服务/提取数据-HIS数据库基础的业务流程有了很清晰的了解。

 image.png

2、发现异常点。有169.254.122.78-169.254.205.119有数据交互,且数据交互量比较大,需要进一步分析。

 image.png

四、事件分析

1、数据库业务状态分析

1) 查看ORACLE数据库业务综合分析,查看故障前时间段,可以看到172.16.1.138成功率为0,172.16.1.56和172.16.1.55成功率均很高,属于正常的业务状态。

 image.png

2) 当出现问题时ORACLE访问连接状态,九游会可以看到详细的ORACLE访问记录。以172.16.31.112为访问对象,在13:33直接访问172.16.1.138是连接失败的,但是访问172.16.1.138的三个请求分布负载分流到了172.16.1.56和172.16.1.55上,且登录是成功的。

 image.png

3) 故障为下午15点以后恢复,九游会再看14:42-14:52的数据,在这个时刻九游会可以发现还有很多登陆成功172.16.1.56和172.16.1.55的访问记录。

 image.png

4) 继续深入分析该时间段

 image.png

5) 继续深入分析该时间段

 image.png

 

2、流量分析

1) 网络故障点前后连接数状态分析,通过分析九游会看到在故障出现的时间点前后连接数均出现名称明显波动。

 image.png

2) 进一步分析导致连接趋势波动异常的分析,主要是

 image.png


 image.png


 image.png


3) 查看

 

    image.png


五、分析结论

1. 当出现问题时,用户侧访问登陆虚拟数据库是正常的,但是通过虚拟数据库去访问HIS系统是不正常的,导致访问失败;

2. 在故障出现期间,有异常流量突发,主要是

3. 问题节点出现在虚拟数据库与HIS系统数据交换区间,原因应该是异常流量突发造成网络资源拥塞所致。


湖南九游会信息技术有限公司官网

地 址:长沙市岳麓区潇湘南路368号中盈广场D栋406-407

邮政编码:410208

研 发:1.5.liu:(7.5.1.9).5.1.9.0

邮 箱:

招聘邮箱:hr_