常见原因
本类故障的常见原因主要包括:
- 接口震荡;
- 邻居震荡;
- Router ID冲突;
- IP地址冲突;
- 外部路由震荡。
故障诊断流程
设备出现OSPF路由震荡,可按照故障诊断流程图1排除故障。
图1 OSPF路由震荡故障诊断流程图
故障处理步骤
操作步骤
- 查看引起路由震荡的原因。
- 登录到路由接收者设备,在任意视图下执行display ospf spf-statistics verbose命令,查看引起路由重新计算的原因。
- <HUAWEI> display ospf spf-statistics verbose OSPF Process 1 with Router ID 192.168.2.200 Routing table change statistics: Index: 1 Time : 2015-07-15 11:48:46 Intra : 2 Added,0 Deleted Inter : 0 Added,0 Deleted External : 0 Added,0 Deleted The reason of calculation is:Topo NO. Type LS ID Adv Router 1 Router 192.168.3.200 192.168.3.200 Index: 2 Time : 2015-07-15 11:48:42 Intra : 1 Added,0 Deleted Inter : 0 Added,0 Deleted External : 0 Added,0 Deleted The reason of calculation is:Topo NO. Type LS ID Adv Router 1 Network 172.16.1.1 192.168.3.200
- 主要关注Type字段,该字段表示引起路由计算的LSA的类型。
- 如果Type字段对应的LSA类型是Router,说明是Router LSA引起的路由震荡,请参考步骤2。
- 如果Type字段对应的LSA类型是Network,说明是Network LSA引起的路由震荡,请参考步骤4。
- 如果Type字段对应的LSA类型是Sum-Net,说明是Sum-Net LSA引起的路由震荡,请参考步骤5。
- 如果Type字段对应的LSA类型是External或NSSA,说明是External LSA或NSSA LSA引起的路由震荡,请参考步骤6。
- Router LSA引发的路由震荡。
- 如果1中显示的Adv Router是本设备的Router ID,说明Router LSA是当前设备的生成的,按照以下步骤进行故障诊断。
- 首先检查接口是否存在震荡,在任意视图下使用display interface命令,关注Last physical up time和Last physical down time字段,该字段表示接口最后一次Down、UP的时间。如果接口存在震荡,请检查设备链路是否存在故障。
- <HUAWEI> display interface 10GE3/0/15 10GE3/0/15 current state : UP (ifindex: 1760) Line protocol current state : UP Description: Switch Port, PVID : 1, TPID : 8100(Hex), The Maximum Frame Length is 9216 Internet protocol processing : disabled IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is e468-a3f9-2101 Port Mode: COMMON COPPER, Port Split: - Speed: 10000, Loopback: NONE Duplex: FULL, Negotiation: DISABLE Input Flow-control: DISABLE, Output Flow-control: DISABLE Mdi: -, Fec: - Last physical up time : 2015-07-15 12:11:35 Last physical down time : 2015-07-15 11:53:05 Current system time: 2015-07-15 15:02:43 ...
- 如果接口未发生震荡,则检查是否存在邻居震荡,在任意视图执行display ospf peer last-nbr-down命令检查。并参考OSPF邻居震荡进行故障诊断。
- <HUAWEI> display ospf peer last-nbr-down OSPF Process 1 with Router ID 192.168.2.200 Last Down OSPF Peer Neighbor Ip Address : 10.0.0.1 Neighbor Area Id : 0.0.0.0 Neighbor Router Id : 10.1.1.3 Interface : Vlanif4000 (1803) Immediate Reason : Neighbor Down Due to Kill Neighbor Primary Reason : Link Fault or Interface Configuration Change Down Time : 2015-07-15 11:44:02 Neighbor Ip Address : 10.7.1.1 Neighbor Area Id : 0.0.0.0 Neighbor Router Id : 10.90.255.254 Interface : 10GE3/0/17 (1762) Immediate Reason : Neighbor Down Due to Kill Neighbor Primary Reason : Link Fault or Interface Configuration Change Down Time : 2015-07-14 19:42:14 Neighbor Ip Address : 10.0.0.1 Neighbor Area Id : 0.0.0.0 Neighbor Router Id : 10.1.1.3 Interface : Vlanif4000 (1803) Immediate Reason : Neighbor Down Due to Kill Neighbor Primary Reason : Link Fault or Interface Configuration Change Down Time : 2015-07-10 17:17:39
- 若以上步骤未找出问题原因,则需要排查是否存在Router ID冲突。在任意视图下不断执行display ospf lsdb router self-originate查看Router LSA,如果Router LSA的Seq序号一直在增大,并且Ls age始终很小,说明LSA一直在刷新。此时基本可以确认存在区域内Router ID冲突。
- <HUAWEI> display ospf lsdb router self-originate OSPF Process 1 with Router ID 192.168.2.200 Area: 0.0.0.0 ---------------------------------------------------------------------------- Type : Router Ls id : 192.168.2.200 Adv rtr : 192.168.2.200 Ls age : 1020 Len : 72 Options : E seq# : 80000247 chksum : 0x4d35 Link count: 4 Link ID: 192.168.2.200 Data : 255.255.255.255 Link Type: StubNet Metric : 0 Link ID: 10.7.1.0 Data : 255.255.255.0 Link Type: StubNet Metric : 1 Link ID: 10.0.0.2 Data : 10.0.0.2 Link Type: TransNet Metric : 1 Link ID: 10.1.1.60 Data : 255.255.255.255 Link Type: StubNet Metric : 0
- 然后需要排查出冲突的设备,可以参考Router LSA中携带接口地址,便于排查。区域内的Router ID冲突的排查和解决方法请参考步骤3。
- 如果1中显示的Adv Router不是本设备的Router ID,说明Router LSA不是当前设备的生成的,按照以下步骤进行故障诊断。在本设备任意视图多次执行display ospf lsdb router link-state-id (表示1中看到的LS ID),以查看该Router LSA。如果Router LSA的seq#序号一直在增大,并且Ls age始终很小,说明LSA一直在刷新。注意观察该LSA的Link ID字段。如果Link ID字段始终在变化,则可能对应设备的接口或邻居在频繁震荡,Link ID与设备接口地址的对应关系说明可以参考3。找到出现震荡的接口后,需要登录该设备(也就是Adv rtr标识的设备),查看该变化的Link ID所对应接口或邻居是否存在震荡,或者反馈该设备日志进一步分析。如果Link ID字段始终不变,或者两次采集到的Link ID字段存在完全不同,则基本可以确定存在区域内Router ID冲突,区域内的Router ID冲突的排查和解决方法请参考3。
- 区域内Router ID冲突排查和解决。
- 进入本步骤已经基本确认出现区域内的OSPF Router ID冲突,也可以查看设备日志进一步确认,当达到一定的检测次数后,会打印出OSPF区域内Router ID冲突的Trap。
- OSPF_1.3.6.1.4.1.2011.5.25.155.31.3 hwOspfv2IntraAreaRouteridConflict Router IDs conflict in an intra area. (ProcessId=[ProcessId], AreaId=[AreaId], SelfIfnetIndex=[SelfIfnetIndex], NbrIpAddr=[NbrIpAddr], RouterId=[RouterId], NbrRtrId=[NbrRtrId])
- 一般情况下,区域内的OSPF Router ID冲突已有自愈措施,在一定的时间内,会重新选举新的Router ID。由于自愈时间可能比较长,可按照下列步骤排查冲突设备并手工解决冲突。
- 如果在本设备查看本设备的Router LSA,发现其存在Router ID冲突,由于本设备只能显示出自己的Router LSA所对应内容。因此若查找冲突设备,需要登录到本区域其他设备,按照下面的步骤继续排查冲突源。
- 在任意视图下连续执行display ospf lsdb router link-state-id (表示1中看到的LS ID)命令,并持续观察该LSA对应的Link ID所对应的字段,该字段表示生成该LSA的路由器接入本区域的接口集合。<HUAWEI> display ospf lsdb router 10.1.1.3 OSPF Process 1 with Router ID 192.168.2.200 Area: 0.0.0.0 ---------------------------------------------------------------------------- Type : Router Ls id : 10.1.1.3 Adv rtr : 10.1.1.3 Ls age : 1162 Len : 60 Options : ABR E seq# : 80000157 chksum : 0x4011 Link count: 3 Link ID: 10.0.0.2 Data : 10.0.0.1 Link Type : TransNet Metric : 1 Link ID: 10.1.1.127 Data : 255.255.255.255 Link Type: StubNet Metric : 0 Link ID: 10.6.1.1 Data : 10.6.1.2 Link Type: TransNet Metric : 1
- 对于Link Type是P2P的LINK,其中的Data则表示该路由器接入到当前区域的点到点接口IP地址。
- 对于Link Type是TransNet的LINK,其中的Data则表示该路由器接入到当前区域广播网接口IP地址。
- 对于Link Type是StubNet的LINK,此时如果Data字段是255.255.255.255,则说明是Loopback接口,其中的Link ID表示路由器的Loopback接口地址。
- 如果该命令在不同时刻显示的Link ID字段内容完全不同,则其中一次显示的内容是冲突的设备所生成的Router LSA,根据以上方法找出该设备的接口IP或者Loopback接口IP,从而找到该设备。
- 在大部分情况下,由于出现Router ID冲突的时候,LSA刷新非常快,无法通过上述步骤查找冲突源。此时需要排查区域内的所有设备,在每台设备上任意视图执行display ospf brief命令,查看每个进程对应的Router ID,找到出现冲突的设备。并按照下面的步骤解决冲突。<HUAWEI> display ospf brief OSPF Process 1 with Router ID 192.168.2.200 RouterID: 192.168.2.200 Border Router: Multiple VPN instance is not enabled Global DS-TE Mode is disabled Graceful-restart capability is disabled Helper support capability is not configured SPF schedule interval : Max 10000ms, Start 500ms, Hold 1000ms Default ASE parameters : Metric: 1 Tag: 1 Type: 2 Route preference : 10 ASE route preference : 150 Intra route preference : 10 Inter route preference : 10 SPF computation count : 32 RFC 1583 compatible Retransmission limitation is disabled BFD enabled BFD Timers: Tx-Interval 50, Rx-Interval 50, Multiplier 3 Area count : 1 Nssa area count : 0 Exchange/Loading neighbors : 0 …
- 解决冲突需要重新修改Router ID,需要在系统视图下,执行ospf router-id router-id(表示新的router id)命令,指定新的Router ID,并重启进程,使之生效。
- Network LSA引发的路由震荡。
- 如果1中显示的Adv Router是本设备的Router ID,说明Network LSA是当前设备的生成的,按照以下步骤进行故障诊断。
- 在任意视图下执行display ospf peer last-nbr-down命令,检查邻居是否有过震荡。
- 如果邻居发生震荡,请参照OSPF邻居震荡定位思路进行故障诊断。
- 如果邻居未发生震荡,则可能存在区域内地址冲突,在任意视图下连续执行display ospf lsdb network查看该Network LSA,如果Network LSA的Seq序号一直在增大,并且Ls Age始终很小,说明LSA一直在刷新。此时基本确认存在区域内IP地址冲突。<HUAWEI> display ospf lsdb network 10.0.0.2 OSPF Process 1 with Router ID 192.168.2.200 Area: 0.0.0.0 ---------------------------------------------------------------------------- Type : Network Ls id : 10.0.0.2 Adv rtr : 192.168.2.200 Ls age : 1507 Len : 32 Options : E seq# : 800001b9 chksum : 0xa264 Net mask : 255.255.255.0 Attached Router: 10.1.1.3 Attached Router: 192.168.2.200
- 可以使用以下方式查找冲突的IP地址:
- 登录到本区域同网段非DR设备上,尝试Tracert该IP,看不同的时刻是否能显示出不同的路径,从而找到该冲突的设备;
- 或者在当前设备上,显示本区域所有的Router LSA,并通过2中的方式查找接口,找到存在IP地址冲突的接口;
- 或者排查现网区域内配置,找到出现冲突的设备。
- 查找到冲突的IP地址后,可以根据网络规划重新指定IP地址。
- 如果1中显示的Adv Router不是本设备的Router ID,说明Network LSA不是当前设备的生成的,连续不断执行display ospf lsdb network查看该Network LSA,如果符合IP地址冲突特征,尝试按照上述步骤解决IP地址冲突问题。
- 如果未找到问题原因,需要尝试登录该设备(也就是Adv rtr字段标识的设备),重新进行本步骤相关检查,或者反馈该设备日志进一步分析。
- Sum-Net LSA引发的路由震荡。
- 如果1中显示引发路由震荡的是Sum-Net LSA,说明故障源发生在本区域外。按照以下步骤进行故障诊断。
- 连续不断执行display ospf lsdb summary查看Summary LSA,根据变化情况,大体确定哪些前缀在变化。
- <HUAWEI> display ospf lsdb summary OSPF Process 1 with Router ID 192.168.2.200 Area: 0.0.0.0 ---------------------------------------------------------------------------- Type : Sum-Net Ls id : 10.1.1.0 Adv rtr : 10.1.1.3 Ls age : 1547 Len : 28 Options : E seq# : 80000067 chksum : 0x8294 Net mask : 255.255.255.0 Tos 0 metric: 1 Type : Sum-Net Ls id : 10.1.1.0 Adv rtr : 10.1.1.3 Ls age : 1547 Len : 28 Options : E seq# : 80000067 chksum : 0x68ac Net mask : 255.255.255.0 Tos 0 metric: 1
- 尝试登录到ABR(也就是Adv rtr字段标识的设备),通过display ospf routing命令查询该路由从哪个区域学习,然后继续按照前面的步骤定位这个区域内的路由震荡。
- <HUAWEI> display ospf routing 10.1.1.1 OSPF Process 1 with Router ID 192.168.80.182 Destination : 10.1.1.1/32 AdverRouter : 192.168.80.182 Area : 0.0.0.0 Cost : 0 Type : Direct NextHop : 10.1.1.1 Interface : Loop0 Priority : Medium Age : 16h03m05s
- External LSA或NSSA LSA引发的路由震荡。
- 如果1中显示引发路由震荡的是External LSA或NSSA LSA,按照以下步骤进行故障诊断。NSSA的情况与External类似,这里按照External方式举例。
- 一般情况下,是由于外部路由源变化导致的路由震荡,此时登录到ASBR(也就是Adv rtr字段标识的设备),会发现来源于其他路由协议的路由在震荡,这时候,需要按照对应协议的故障指导方法进行问题定位。
- 还有就是协议间互引,优先级配置不合理导致。例如两台运行OSPF的路由器引入静态路由,但是静态路由的优先级配置较低。OSPF又从对方收到OSPF路由,从而替换掉IP路由表中的静态路由;静态路由消失又导致路由源消失,OSPF路由又消失,静态路由再次替换掉IP路由表中的OSPF路由。如此反复。这种情况下,可以通过网络规划,设置正确的协议间优先级解决。
- 如果外部路由未发生变化,则需要按照前面的步骤排查是否ASBR设备上存在接口震荡、邻居震荡等问题。
- 如果上述步骤未找到问题原因,则可能存在Router ID冲突。在当前设备任意视图下,连续执行display ospf lsdb ase 查看External LSA。如果LSA内容没有发生变化,且LSA的Age字段比较小,但是Seq字段在不断增大,则基本可确定当前AS内存在Router Id冲突。这种情况,需要逐一排查现网设备,找出出现冲突的设备,按照网络规划重新分配Router ID。<HUAWEI> display ospf lsdb ase OSPF Process 1 with Router ID 192.168.2.200 Area: 0.0.0.0 ---------------------------------------------------------------------------- Type : Sum-Net Ls id : 10.1.1.0 Adv rtr : 10.1.1.3 Ls age : 1547 Len : 28 Options : E seq# : 80000067 chksum : 0x8294 Net mask : 255.255.255.0 Tos 0 metric: 1 Type : Sum-Net Ls id : 10.1.2.0 Adv rtr : 10.1.1.3 Ls age : 1547 Len : 28 Options : E seq# : 80000067 chksum : 0x68ac Net mask : 255.255.255.0 Tos 0 metric: 1
- 如果故障仍未排除,请收集如下信息,并联系技术支持人员。上述步骤的执行结果。设备的配置文件、日志信息、告警信息。